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本 书 讨论 Al 科学 ， 它 将 Al 作为 智能 计算 Agent 设 计 的 研究 课题 : 本 书 虽 然 设 计 为 教科 书 ， 但 它 也 适合 广大 
专业 人 员 和 研究 人 员 阅 读 。 本 书 的 一 个 重要 特色 是 其 在 线 学 习 资 源 ( http://artint.info/ ) - 

在 过 去 的 几 十 年 里 ， 人 工 智 能 是 作为 一 种 严肃 科学 和 工程 学 科 出 现 的 。 本 书 提 供 了 针对 本 科 生 和 研究 生 的 
第 一 手 便利 可 用 的 领域 综合 资料 ， 对 当今 该 领域 的 基础 发 展 进行 了 展望 。 像 任何 名 副 其 实 的 科学 一 样 ，Al 具 有 
条 理 分 明 、 形 式 化 的 理论 和 难以 控制 的 实验 。 本 书 均衡 了 理论 和 实验 部 分 ， 并 说 明了 如 何 将 理论 与 实验 密切 地 
联系 起 来 ， 使 科学 与 工程 应 用 共同 发 展 





- 架 指 导 : 计算 机 \ 人 工 智能 
ISBN 978-7-111-48457-8 


9"787111"4845 78"> 


CAMBRIDGE 
UNIVERSITY PRESS 
www.cambridge.org 





投稿 热线 : (010) 88379604 华章 网 站 : www.hzbook.com 
客服 热线 : (010) 88378991 88361066 同上 购书 : www.china-pub.com 定价 : 79.00 元 
购书 热线 : (010) 68326294 88379649 68995259 $FE: www.hzmedia.com.cn AE DI: -UIJL 








计算 Agent 基 础 
(m) David L. Poole Alan K. Mackworii, z 


董 红 斌 董 兴业 RE 汪 廷 华 译 
“ 黄 厚 宽 审 校 





Artificial Intelligence 


Foundations of Computational Agents 





ARTIFICIAL 
INTELLIGENCE 


FOUNDATIONS OF COMPUTATIONAL AGENTS 
































DAVID L. POOLE 
ALAN K. MACKWORTH 











oa Cre ina i achine Press 


i 





图 书 在 版 编目 (CIP) 数据 


人 工 智能 : 计算 Agent 基础 / (加 ) 普尔 (Poole, D. L.), (加 ) 麦克 沃 思 (Mackworth, A. K.) 
S; MADRS. 一 北京 : 机械 工业 出 版 社 ，2014.12 

(计算 机 科学 丛书 ) 

书 名 原文 : Artificial Intelligence: Foundations of Computational Agents 


ISBN 978-7-111-48457-8 

I 人 … I. Q@ 普 … Ož- @it-- Il. 人 工 智能 - 研究 IV. TP18 
中 国 版 本 图 书馆 CIP 数据 核 字 ( 2014 ) 第 258294 号 

本 书 版 权 登 记号 : 图 字 : 01-2011-7728 


This is a(n) simplified Chinese of the following title(s) published by Cambridge 
University Press: 

David L. Poole and Alan K, Mackworth: Artificial Intelligence: Foundations of Computational 
Agents (ISBN 978-0-521-51900-7). 

Original English language edition copyright © 2010 by David L. Poole and Alan K. 
Mackworth. 

This simplified Chinese for the People’s Republic of China (excluding Hong Kong, 
Macau and Taiwan) is published by arrangement with the Press Syndicate of the University 
of Cambridge, Cambridge, United Kingdom. 

© Cambridge University Press and China Machine Press in 2015. 

This simplified Chinese is authorized for sale in the People’s Republic of China (excluding 
Hong Kong, Macau and Taiwan) only. Unauthorized export of this simplified Chinese is a 
violation of the Copyright Act. No part.of this publication may be reproduced or distributed by 
any means, or stored in a database or retrieval system, without the prior written permission 
of Cambridge University Press and China Machine Press. 

本 书 原版 由 剑桥 大 学 出 版 社 出 版 。 

本 书简 体 字 中 文 版 由 剑桥 大 学 出 版 社 与 机 械 工 业 出 版 社 合作 出 版 。 未 经 出 版 者 预先 世面 许可 ， 不 得 
以 任何 方式 复制 或 抄 获 本 节 的 任何 部 分 。 

此 版 本 仅 限 在 中 华人 民 共 和 国境 内 (不 包括 香港 、 澳 门 特别 行政 区 及 台湾 地 区 ) 销售 。 


本 书 非常 全 面 地 介绍 了 人 工 智能 科学 ， 涵 盖 智 能 体 、 表 达 和 推理 、 学 尺 与 规划 以 及 个 体 和 关系 的 推 
理 等 内 容 ， 并 充分 考虑 了 AI 科学 中 理论 描述 的 形式 化 及 实验 的 难以 控制 等 特点 ， 对 理论 部 分 和 实验 部 
分 做 了 很 好 的 平衡 ， 展 示 了 理论 与 实验 之 间 的 联系 ， 兼顾 了 科学 与 工程 的 共同 发 展 。 本 书 提供 的 材料 丰 
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文艺 复兴 以 降 ， 源远流长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 
的 各 个 领域 取得 了 董 断 性 的 优势 ;也 正 是 这 样 的 传统 ,使 美国 在 信息 技术 发 展 的 六 十 多 年 
间 名 家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 
计算 机 学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著 
作 ， 不 仅 羽 划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 
其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 
日 益 人 迫切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 
战略 上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 
机 科学 发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接 
轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”"。 自 1998 年 开始 ， 我 们 就 
将 工作 重点 放 在 了 六 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我们 与 Pearson, 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 
了 和 良好 的 合作 关系 ， 从 他们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne 
Stroustrup, Brain W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. 
Hopcroft, Jeffrey D. Ullman, Abraham Silberschatz. William Stallings, Donald E. 
Knuth, John L. Hennessy, Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科 
学 丛书 ?为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹 理 的 封面 ， 也 正体 现 了 这 套 丛 
书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 圳 助 ， 国 内 的 专家 不 仅 提 供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 两 百 
个 品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ,并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 。 
其 影印 版 “经典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 
的 图 书 有 了 质量 的 保证 。- 随 着 计算 机 科学 与 技术 专业 学 科 建设 的 不 断 完 善 和 教材 改革 的 逐 
渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 
善 尽 美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢 迎 老师 和 读者 
对 我 们 的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 

华章 网 站 : www. hzbook. com 

电子 邮件 : hzjsj@hzbook. com 

联系 电话 : (010)88379604 HZ Books 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 

邮政 编码 : 100037 
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人 工 智能 自 20 世纪 50 年 代 诞 生起 就 受到 学 者 们 的 广泛 关注 ， 到 目前 为 止 国内 外 很 多 
著名 高 校 都 成 立 了 专门 研究 人 工 智能 学 科 的 研究 机 构 。 人 工 智 能 的 研究 涉及 多 门 学 科 的 技 
术 ， 因 此 ， 人 工 智能 是 一 门 具有 挑战 性 的 学 科 。 伴 随 计 算 机 技术 的 发 展 和 全 球 信息 化 大 潮 
的 推动 ， 人 工 智 能 的 研究 课题 和 应 用 领域 也 在 不 断 扩 展 。 

本 书 非常 详尽 、 系 统 地 阐述 了 人 工 智 能 相关 技术 ， 内 容 丰 富 、 连 贯 ， 其 中 涵盖 智能 体 
部 分 、 表 达 和 推理 部 分 、 学 习 和 规划 部 分 以 及 个 体 和 关系 的 推理 部 分 等 。 全 书 共 15 章 ， 
各 章 相对 独立 却 也 存在 一 定 的 逻辑 关系 。 该 书 在 各 章节 中 都 针对 不 同 的 概念 给 出 了 示例 或 
图 形 ， 且 难度 由 浅 入 深 ， 方 便 读 者 更 加 透彻 地 理解 复杂 概念 或 方法 。 本 书 既 适合 人 工 智 能 
的 初学 者 ， 也 适合 熟悉 人 工 智能 的 读者 ， 但 是 建议 读者 对 启发 式 算法 、 命 题 与 推理 、 概 率 
以 及 算法 与 数据 结构 有 一 定 基 础 之 后 再 进行 阅读 。 

在 翻译 过 程 中 ， 我 们 发 现 该 书 有 以 下 特点 : 

1) 示例 鲜 活 ， 书 中 所 采用 的 示例 都 取材 于 实际 生产 、 生 活 。 该 方式 既 阐 明了 技术 问 
题 ， 又 说 明了 应 用 问题 。 

2) 伪 代 码 简洁 易 懂 ， 该 书 对 算法 的 伪 代 码 描述 省 去 不 必要 的 部 分 ， 增 加 适当 的 文字 
描述 ， 算 法 脉络 十 分 清晰 。 

3) 重点 突出 ， 该 书 特别 强调 对 知识 点 的 归纳 总 结 ， 并 对 需要 注意 的 问题 进行 提炼 。 

本 书 是 一 本 有 关 AI 的 书籍 ， 供 计算 机 科学 或 者 相关 学 科 ( 例 如 计算 机 工程 、 电 子 工 
程 、 哲 学 、 认 知 科学 和 心理 学 ) 的 高 年 级 本 科 生 或 研究 生 使 用 。 

本 书 的 翻译 工作 由 董 红 斌 、 董 兴业 、 童 向 荣 和 汪 廷 华 共同 完成 ， 全 书 由 黄 厚 宽 审 校 。 
本 书 第 1、2、3 和 10 章 由 童 向 荣 翻 译 , 第 4、5、6、8 和 13 章 由 董 红 斌 翻译 ,第 7、11、 
15 章 和 附录 由 汪 廷 华 翻 译 , 第 9、12 和 14 章 由 董 兴业 翻译 。 本 书 的 翻译 工作 得 到 了 国家 
自然 科学 基金 的 资助 (No. 61472095), FER. BHEN., HAR. PAM. B 
一 鸣 、 候 蕉 、 崔 晓 晖 、 腾 旭 阳 和 杨 雪 等 老师 和 同学 对 本 书 翻译 过 程 的 参与 和 支持 。 

在 翻译 过 程 中 ， 我 们 力求 忠实 、 准 确 地 把 握 原著 并 保持 原著 的 风格 。 但 由 于 水 平 有 限 
和 时 间 仓 促 ， 书 中 表达 不 准确 之 处 在 所 难免 ， 在 此 恳请 各 位 专家 和 广大 读者 批评 指正 。 
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本 书 是 一 本 关于 人 工 智能 (AD 科 学 的 图 书 。 本 书 认为 AI 所 要 研究 的 是 如 何 设计 智能 
计算 Agent( 智 能 体 )。 本 书 采用 教科 书 的 组 织 形式 ， 适 合 广大 读者 阅读 。 

MAILE, 我们 见证 了 AI 这 门 综合 学 科 的 兴起 。 正 如 其 他 学 科 一 样 ，AI 具有 清 
晰 、 规 范 的 理论 和 难 操控 的 实验 部 分 。 本 书 平衡 了 理论 和 实验 ， 并 将 两 者 密切 地 结合 。 俗 
话说 “好 的 理论 必须 有 其 实用 价值 "， 因 此 我 们 将 工程 应 用 融 人 到 AI 的 科学 研究 中 。 本 书 
所 述 方法 都 秉承 了 格言 “凡事 都 应 尽量 从 简 ， 但 不 可 过 简 ”。 我 们 认为 科学 必须 有 其 坚实 的 
基础 ， 因 此 本 书 介绍 了 基础 梗概 ， 并 且 提 供 了 构建 有 效 智能 系统 的 相关 实例 ， 这 些 实例 也 
说 明了 智能 系统 所 必需 的 复杂 事物 。 尽 管 有 可 能 生成 复杂 的 系统 ， 但 是 其 基础 和 构建 应 该 
是 简单 的 。 

本 书 可 作为 人 工 智 能 的 教科 书 ， 适 用 于 计算 机 工程 、 哲 学 、 认 知 科学 以 及 心理 学 专业 
的 高 年 级 本 科 生 和 研究 生 。 本 书 倾向 于 技术 层面 的 思考 ， 其 中 包含 部 分 技术 挑战 ; 并且 本 
书 注重 实践 学 习 : 设计 、 构 造 和 实现 系统 。 每 个 具有 科学 求知 欲 的 读者 都 会 从 本 书 的 学 习 
中 受益 。 书 中 是 根据 需要 来 提出 概念 的 ， 所 以 要 求 读者 具备 关于 计算 系统 的 过 往 经 验 ， 但 
在 我 们 构造 的 概念 上 不 需要 具备 前 期 基础 理论 的 研究 ， 诸 如 逻辑 、 概 率 、 微 积分 和 控制 
理论 。 

认真 的 学 生 可 从 本 书 的 专业 知识 中 获得 不 同 层次 的 宝贵 技能 ， 包 括 规范 和 设计 智能 
Agent， 在 具有 挑战 性 的 应 用 领域 中 进行 软件 系统 的 实现 、 测 试 和 改进 。 不 仅 如 此 ， 学 生 
应 该 很 高 兴 能 够 参与 到 智能 Agent 这 门 学 科 的 兴起 。 能 够 操控 现实 世界 中 普遍 存在 的 、 智 
能 的 、 骨 人 的 Agent， 这 类 实用 技能 也 是 市 场 的 巨大 需求 。 

智能 Agent 的 研究 重点 在 于 其 在 环境 中 起 到 的 作用 。 开 始 时 我 们 针对 简易 、 静 态 的 环 
境 来 研究 简单 Agent 的 行为 ， 随 后 逐渐 增加 Agent 的 能 力 来 应 对 更 具有 挑战 的 环境 。 我 们 
从 九 个 方面 来 研究 复杂 性 ， 这 样 可 以 渐进 地 、 模 块 化 地 向 读者 介绍 构建 智能 Agent 所 面临 
的 挑战 。 本 书 结构 的 安排 尽量 使 得 读者 可 以 分 别 理解 每 个 方面 ， 并 且 我 们 在 四 种 不 同 的 
Agent 任务 中 反复 论证 使 其 更 加 具体 ， 这 四 个 Agent 任务 分 别 是 : 传送 机 器 人 、 诊 断 助 
手 、 制 导 系统 和 交易 Agent。 

学 生 可 以 把 Agent 理解 为 一 个 分 层 设计 的 Agent， 该 Agent 在 随机 环境 中 具有 智能 行 
为 ,但 是 它 仅 能 得 到 部 分 观察 。 该 部 分 观察 是 通过 个 体 与 个 体 间 关系 的 推理 所 得 到 ， 具 有 
复杂 的 参数 、 行 动 中 学 习 、 考 虑 环境 中 的 其 他 Agent 和 给 定 自身 计算 限制 能 正确 处 理 的 特 
点 。 当 然 我 们 不 能 一 开始 就 设计 这 样 的 Agent， 构 建 此 类 Agent 仍然 是 一 个 研究 课题 。 所 
以 我 们 首先 介绍 最 简单 的 Agent， 进 而 说 明 如 何 用 模块 化 的 方法 将 这 些 复杂 功能 添加 
其 中 。 

我 们 给 出 了 几 个 设计 选项 ， 这 些 可 以 说 明 本 书 与 同类 图 书 的 区 别 ， 包 括 作 者 早期 撰写 


Vi 


的 书籍 : 
， 我 们 给 出 了 用 于 理解 AI 的 清晰 框架 。 本 书 不 介绍 那些 不 适合 在 一 起 研究 的 分 散 主 
题 。 例 如 ， 我 们 不 介绍 AI 中 不 相关 的 逻辑 观点 和 概率 观点 ， 但 是 却 提供 了 一 个 多 
维 设 计 空 间 ， 在 这 个 空间 中 学 生 可 以 得 到 一 个 整体 情况 ， 并 且 在 该 空间 内 概率 和 
逻辑 推理 可 以 共存 。 

。 我 们 认为 最 好 将 构成 复杂 技术 的 基础 理论 清晰 地 介绍 给 读者 ， 而 不 是 直接 介绍 这 

些 复杂 技术 。 这 意味 着 本 书 所 覆盖 的 内 容 与 当前 科学 前 沿 有 着 较 大 的 差距 ， 但 同 
时 意味 着 学 生 可 以 具备 较 好 的 基础 去 理解 当前 和 未 来 的 科学 研究 。 

。 我 们 难以 决定 的 问题 之 一 是 如 何 线性 化 设计 空间 。 在 我 们 上 一 本 书 中 (Poole， 
Mackworth 和 Goebel，1998)， 较 早 就 提出 了 一 种 关系 语言 ， 并 且 根 据 该 语言 构 
建 了 基础 理论 。 但 对 于 不 具备 关联 的 工作 ， 该 方法 对 于 学 生来 说 比较 难以 理解 ， 
比如 强化 学 习 是 根据 状态 展开 而 非 关 系 。 本 书 采 用 后 期 关系 化 的 方法 ， 此 方法 在 
基于 特征 表达 的 情况 下 较 好 地 反映 了 过 去 几 十 年 研究 所 取得 的 进步 。 该 方法 使 得 
学 生 可 以 理解 概率 推理 和 逻辑 推理 的 互补 性 。 虽然 是 采用 后 期 关系 化 的 方法 ,但 
是 该 书 结构 使 得 老师 可 以 较 早 地 说 明 各 章节 的 关系 。 

本 书 实 用 的 例子 来 自 于 Alspace. org(http://www. aispace. org)， 我 们 在 设计 过 程 中 
一 直 采 用 这 些 教 学 程序 。 学 生 如 果 想 更 多 地 获得 构建 智能 系统 的 经 验 ， 那 么 也 应 该 尝试 使 
用 LISP 或 Prolog 这 种 高 级 的 符号 操作 语言 进行 实验 。 我 们 同样 提供 了 本 书 许多 问题 在 
AILog( 与 Prolog 相关 的 简洁 的 逻辑 编程 语言 ;上 的 实现 。 当 然 此 部 分 对 于 理解 和 使 用 本 书 
思想 不 是 最 重要 的 。 

通过 对 Agent 性 能 强度 和 表示 语言 这 两 方面 的 深入 研究 ， 本 书 方法 在 总 结 和 分 类 各 种 
Al 应 用 上 比 传统 方法 更 加 简洁 有 效 。 但 是 例如 计算 视觉 和 计算 语言 学 的 应 用 在 本 书 没有 
EKR. 

本 书 没 有 给 出 一 个 百科 全 书 式 的 AI 视图 ， 也 没 去 研究 每 一 个 被 提出 的 重要 思想 。 我 
们 选择 详尽 地 讲解 一 些 基 本 思想 ， 在 这 些 基 本 思想 上 可 以 构造 其 他 更 复杂 的 技术 ,我们 阅 
明了 这 些 复杂 技术 是 如 何在 此 基础 上 被 扩展 的 。 

1 展示 了 本 书 所 涉及 的 各 个 标题 。 实 线 给 出 了 前 提 条 件 。 前 提 结 构 通常 不 包含 所 有 
的 子 标题 。 为 了 撰写 书籍 ， 我 们 对 各 个 主题 进行 章节 编号 。 但 是 本 书 的 讲解 可 以 不 按照 章 
节 编 号 ， 只 要 其 满足 前 提 条 件 的 结构 。 

各 章 结 尾 处 给 出 的 参考 文献 并 不 全 面 : 我 们 只 是 引用 了 我 们 直接 使 用 的 文献 ， 以 及 那 
些 我 们 认为 通过 引用 经 典 工 作 和 最 近 研 究 而 提供 了 良好 概述 的 文献 。 希 望 研究 人 员 不 要 因 
为 自己 的 研究 工作 被 遗漏 而 不 悦 。 如 果 您 觉得 书 中 思想 有 丝 漏 ， 欢 迎 您 反馈 给 我 们 。 再 次 
重申 本 书 不 是 AI 研究 的 综述 类 图 书 。 

诚 邀 您 加 入 我 们 的 智力 探险 活动 : 构建 智能 Agent 科学 。 
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Artificial Intelligence: Foundations of Computational Agents 


人 工 智能 与 Agent 





人 工 智 能 的 历史 充满 和 幻想、 可能、 验证 和 和 希望。 自从 荷 马 描绘 机 器 “ 叫 ” 服 侍 在 众 神 的 
餐桌 旁 ， 那 想象 中 的 机 器 佣 人 便 成 为 我 们 文化 的 一 部 分 。 然 而 ， 我们 人 工 智 能 的 研究 者 ， 
直到 50 年 前 ， 才 首次 制造 出 实验 性 机 器 来 验证 那些 假想 ， 即 有 关 具 备 思 维和 智能 行为 机 
器 人 的 假想 ， 使 得 之 前 仅 在 理论 上 具备 可 能 性 的 机 器 人 得 到 验证 。 

Bruce Buchanan [2005] 





历经 几 个 世纪 的 思想 构建 ， 人 工 智 能 学 科 被 公认 为 有 超过 50 年 的 历史 ， 本 书 正 是 与 
此 有 关 。 如 同 以 上 Buchanan 所 指出 的 ,我 们 现 已 验证 这 种 思想 假设 ， 并 用 于 解决 实际 问 
题 。 许 多 科学 和 工程 问题 已 经 得 到 解决 ， 但 更 多 其 他 问题 亟待 解决 。 纵 然 已 存在 人 工 智能 
的 实际 应 用 ， 仍 有 很 多 潜在 应 用 等 待 挖掘 。 本 书 中 ,我 们 将 揭示 具有 智能 行为 的 计算 
Agent 的 基本 原理 ， 这 将 有 助 于 大 家 理解 人 工 智 能 现在 和 未 来 的 工作 ， 并 有 助 于 对 这 些 原 
理 做 出 进一步 的 贡献 。 


1.1 什么 是 人 工 智 能 


人 工 智能 (Al) 是 一 个 研究 能 够 产生 智能 行为 的 计算 Agent 的 综合 与 分 析 的 领域 。 下 面 
阐述 此 定义 的 每 个 部 分 。 

Agent 是 指 在 某 个 环境 中 进行 某 种 行为 的 个 体 一 一 它 完成 了 某 件 事 。Agent 可 以 是 蠕 
虫 、 狗 、 人 恒温 器 、 飞 机 、 机 器 人 人、 人类、 公司 、 国 家 中 的 任何 一 个 。 

我 们 感 兴趣 的 是 一 个 Agent 做 什么 ? 怎么 做 ? 我 们 通过 Agent 的 行为 来 辨别 不 同 的 
Agent。 

当 Agent 具有 以 下 行为 时 ,我们 说 此 Agent 是 智能 的 : 

。 Agent 的 行为 能 够 与 其 环境 及 目标 相 适 应 。 

。 能 够 灵活 地 适用 于 改变 的 环境 及 目标 。 

。 能 够 从 经 验 中 学 习 。 

。 给 定 感知 和 计算 限制 时 能 够 做 出 恰当 的 选择 。Agent 通常 不 能 直接 观察 到 整个 世 

界 ， 它 只 有 有 限 的 记忆 ， 并 且 没 有 无 限时 间 进 行 某 个 行为 。 

计算 Agent 可 以 通过 一 系列 的 计算 对 其 行为 进行 决策 。 也 就 是 说 ， 决 策 可 以 分 解 成 能 够 
在 硬件 设备 上 实现 的 一 系列 原始 操作 。 这 种 计算 有 很 多 形式 ， 人 类 是 通过 一 些 软 件 完成 的 ， 
而 计算 机 则 是 由 一 些 硬件 完成 的 。 尽 管 有 一 些 Agent 可 以 认为 是 不 可 计算 的 ， 例 如 自然 现象 
中 侵蚀 景观 的 风 和 十 。 但 是 ， 是 否 所 有 的 Agent 都 是 可 计算 的 ， 仍 是 一 个 开放 性 问题 。 

人 工 智 能 的 核心 科学 目标 是 理解 自然 系统 或 人 工 系统 中 一 些 智 能 行为 的 原理 ， 主 要 通 
过 以 下 几 个 部 分 来 进行 : 

。 对 自然 Agent 及 人 工 Agent 进行 分 析 。 

。 对 如 何 构造 Agent 进行 形式 化 定义 ， 并 进行 验证 。 

。 设计 、 构 建 和 实验 计算 系统 . 通过 执行 某 些 智能 性 任务 来 进行 验证 。 
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作为 科学 的 一 部 分 ， 研 究 者 们 已 建立 了 一 些 实验 系统 来 验证 某 些 假设 ， 或 来 探索 可 能 
性 空间 。 这 与 适用 于 某 个 实际 领域 的 那些 应 用 系统 有 很 大 不 同 。 

注意 ， 这 个 定义 不 是 关于 智能 思想 的 。 我 们 仅仅 对 如 何 智 能 地 思考 感 兴趣 ， 只 要 它 能 
带 来 更 好 的 表现 。 思 想 的 作用 是 影响 动作 。 

人 工 智能 的 核心 工程 目标 是 设计 和 合成 有 用 且 智 能 的 产品 。 我 们 通常 都 是 希望 构建 有 
智能 行为 的 Agent。 这 些 具 有 智能 行为 的 Agent， 可 以 使 其 许多 应 用 大 放 光 彩 。 


人 工 智能 与 自然 智能 


人 工 智 能 在 本 领域 是 一 个 固定 的 名 称 ， 但 是 “人 工 智 能 ”这 个 术语 同时 也 是 一 个 很 模糊 
的 概念 ， 因 为 人 工 智能 可 以 看 做 自然 智能 的 对 立 面 。 

对 于 任何 现象 ， 可 以 分 成 真 与 假 两 个 对 立 面 ， 假 就 是 不 真实 ; 也 可 以 分 成 自然 与 人 工 
两 个 方面 ， 自 然 意味 着 发 生 在 自然 界 中 的 现象 ， 人 工 则 意味 着 由 人 类 制造 的 那 部 分 现象 。 

【 例 1-1) 海啸 是 指 由 地 震 或 山崩 引起 的 海洋 中 的 巨大 波浪 。 自 然 海 嘻 时 有 发 生 ， 人 
工 海 哺 则 是 人 为 制造 的 ， 比 如 在 海洋 中 投入 一 颗 炸 弹 爆 炸 ， 这 引发 的 仍然 是 一 场 真 实 的 海 
哺 。 假 的 海 哺 可 以 是 人 工 的 ， 比 如 计算 机 软件 绘制 而 成 的 海 哺 图 形 ; 也 可 以 是 自然 的 ， 比 
如 显示 有 海 哺 发 生 的 海 市 压 楼 现象 。 < 

对 于 智能 是 否 不 一 样 仍然 存在 争议 : 假 的 智能 是 不 存在 的 。 如 果 一 个 Agent 可 以 智能 
地 进行 某 种 行为 ， 我 们 说 它 是 智能 的 。 定 义 智 能 仅仅 是 外 部 的 行为 ， 正 在 智能 地 进行 某 个 
动作 才 是 智能 。 因 此 ， 只 有 当 智 能 被 实现 时 ， 人 工 智 能 才 是 真 的 智能 。 

图 灵 受 从 外 部 行为 定义 智能 这 个 概念 的 启发 ， 设 计 了 一 个 关于 智能 的 测试 Turing 
[1950]， 这 就 是 著名 的 图 灵 测 试 。 图 灵 测 试 是 一 种 模仿 博弈 ， 测 试 者 可 以 通过 文本 交互 界 
面向 被 测试 者 提出 任何 问题 ， 如 果 测 试 者 不 能 分 辨 出 被 测试 者 是 不 是 人 ， 这 个 被 测试 者 就 
是 智能 的 。 图 1-1 显示 了 图 灵 测 试 中 的 一 段 对 话 。 如 果 不 能 对 任意 话题 表现 出 智能 ， 这 个 
Agent 就 不 是 真 的 智能 。 


测试 者 问 : 在 你 的 十 四 行 诗 的 第 二 行 有 一 句 话 是 “我 能 把 你 比 作 夏 天 吗 ?”， 其 中 “夏天 ” 换 成 “春天 ”是否 也 
可 以 或 更 好 ? 

被 测试 者 答 : 那样 不 合 韵律 。 

测试 者 问 ; MMM KM? CAB. 

被 测试 者 答 : 可 以 ,但 是 没有 人 想 被 比 作 冬天 。 

测试 者 问 ; 你 大 概 说 过 Pickwick 先生 使 你 想起 圣诞 节 吧 ? 


被 测试 者 答 : 从 其 种 意义 上 讲 是 这 样 。 

测试 者 问 : 但 圣诞 节 是 冬季 的 一 天 呀 ， 我 认为 Pickwick 先生 不 会 介意 比 作 冬 天 。 

被 测试 者 答 : 你 也 许 是 在 开玩笑 吧 。 我 们 所 说 冬季 的 一 天 是 指 冬 季 典 型 的 一 天 ， 而 不 是 像 圣 诞 节 那 样 特 
殊 的 一 天 。 





1-1 图 灵 测 试 中 的 一 段 对 话 ( 来 自 Turing[L1950]) 


人 们 对 图 灵 测 试 有 很 多 争议 。 可 惜 的 是 ， 图 灵 测 试 虽然 能 为 如 何 辨 别 智 能 提供 测试 ， 
却 不 能 为 达到 某 种 智能 提供 方法 ， 因 此 图 灵 测 试 似乎 并 不 是 一 种 有 用 的 研究 思路 。 

最 明显 的 自然 智能 Agent 是 人 类 。 有 人 说 蜂 虫 、 昆 虫 或 细菌 是 智能 的 ， 更 多 人 说 狗 、 
鲸 或 猴子 是 智能 的 (见习 题 1. 1)。 还 有 一 类 Agent 比 人 类 更 为 智能 ， 那 就 是 组 织 。 蚁 群 就 
是 组 织 的 一 个 典型 例子 。 单 只 蚂 下 可 能 不 很 智能 ,但 蚁 群 却 比 任何 一 只 蝎 玉 更 为 智能 。 静 
群 能 发 现 食物 并 有 效 地 利用 ， 而 且 能 很 好 地 适应 变化 的 环境 。 类 似 地 ， 公 司 可 以 通过 汇总 
所 有 的 必要 技能 、 对 产品 进行 开发 、 制 造 和 分 配 ， 这 比 个 人 单打 独 斗 要 有 效 得 多 。 现 代 计 
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算 机 ， 从 底层 的 硬件 到 高 层 的 软件 ， 其 复杂 程度 常人 无 法 想象 ， 但 每 天 却 被 人 类 所 操作 。 
人 类 社会 可 以 看 做 迄今 为 止 最 为 智能 的 Agent T. 

人 类 智能 从 何 而 来 是 值得 探索 的 。 主 要 源头 有 以 下 三 个 方面 : 

生物 : 人 类 已 进化 成 为 可 以 在 各 种 环境 下 生存 的 适应 性 动物 。 

文化 : 文化 不 仅 能 够 提供 语言 ， 还 能 提供 有 用 的 工具 、 思 维 以 及 一 代 代 从 父母 和 老师 
传 到 孩子 积累 下 来 的 智慧 。 

终生 学 习 : 人 类 从 生活 中 学 习 和 积累 知识 与 技能 。 

这 些 源头 以 复杂 的 方式 进行 交互 。 生 物 进 化 论 提供 了 生命 不 同 阶 段 的 不 同学 习 而 实现 
的 成 长 。 人 类 与 文化 是 共同 进化 的 ， 所 以 人 类 在 刚 出 生 时 是 没有 能 力 的 ， 大 概 就 是 因为 我 
们 有 照顾 婴儿 的 文化 。 文 化 和 学 习 密 切 交 互 在 一 起 。 终 身 学 习 中 的 最 主要 部 分 是 从 父母 和 
老师 那里 学 到 知识 。 语 言 ， 作 为 文化 的 一 部 分 ， 使 世界 有 所 区 别 ， 同 时 也 是 学 习 的 重要 
部 分 。 


1.2 人 工 智能 简 史 


纵 观 人 类 历史 ， 人 们 曾 一 直 用 技术 为 人 类 自身 建立 模型 ， 例 如 古代 的 中 国 、 古 埃及 和 
古 希腊 都 可 以 证 明 ， 每 一 种 新 技术 都 不 断 地 用 来 建造 Agent 或 其 他 意识 模型 。 发 条 装置 、 
水 力学 、 电 话 转换 系统 、 全 息 图 、 模 拟 计算 机 以 及 数字 计算 机 等 都 被 提出 作为 智能 装置 和 
意识 模型 的 技术 原理 。 

KA 400 年 前 ， 人 们 开始 解释 思维 与 推理 的 本 质 。Hobbes(1588 一 1679) 被 Haugeland 
[1985, P. 85] 称 为 人 工 智能 的 始祖 ， 认 为 思考 是 符号 推理 ， 例 如 大 声 说 话 或 用 纸 笔 计 算出 
某 个 答案 Descartes(1596—1650), Pascal(1623—1662), 、Spinoza(1632 一 1677) 、Leibniz 
(1646 一 1716) 以 及 精神 哲学 领域 的 其 他 先驱 者 对 符号 推理 这 一 理念 进行 了 更 深层 次 的 
研究 。 

随 着 计算 机 的 发 展 ， 符 号 运算 这 个 概念 变 得 更 为 具体 。 第 一 台 通 用 计算 机 是 一 个 分 析 
机 ， 它 是 由 Babbage(1792 一 1871) 设 计 的 ， 但 直到 1991 年 才 真 正 制 造 出 来 ， 现 在 位 于 伦敦 
科学 博物 馆 内 。 在 20 世纪 早期 ， 进 行 了 很 多 关于 认 知 计算 的 研究 ， 提 出 了 几 种 计算 模型 ， 
例如 Turing(1912 一 1954) 提 出 的 图 灵机 一 一 一 种 在 无 限 长 的 磁带 上 书写 符号 的 理论 机 器 ， 
Church(1903 一 1995) 提 出 的 入 演算 一 一 一 种 重 写 公 式 的 数学 形式 体系 ， 这 种 理论 表明 不 同 
的 数学 形式 其 实 是 等 价 的 ， 因 为 任意 一 个 可 计算 的 函数 可 以 由 其 他 函数 计算 得 到 。 由 此 ， 
我 们 得 到 Church-Turing 理论 : 

任何 有 效 可 计算 的 函数 都 可 以 通过 图 灵机 来 运行 ( 同 禅 适用 于 入 演算 或 其 他 等 价 的 形 
ARR). 

这 里 “有 效 可 计算 的 ”是 指 那些 定义 明确 的 操作 ; 图 灵机 时 代 的 “计算 机 ”是 执行 明确 定 
义 步骤 的 人 ， 而 我 们 现在 所 熟悉 的 计算 机 那 时 并 不 存在 。 此 理论 表明 所 有 的 计算 都 可 以 通 
过 图 灵机 或 其 他 与 之 等 价 的 计算 机 器 来 执行 。 我 们 虽然 无 法 证 明 Church-Turing 理论 ， 但 
它 确实 是 一 种 经 得 住 时 间 检 验 的 假设 。 因 为 到 现在 都 没有 人 可 以 制作 出 一 种 机 器 ， 来 进行 
图 灵机 无 法 进行 的 计算 ， 而 且 也 没有 证 据说 明 存 在 某 种 函数 ， 人 类 可 以 计算 而 图 灵机 却 不 
能 进行 计算 。Agent 的 动作 是 一 个 关于 其 能 力 、 历 史 、 目 标 及 偏好 的 函数 。 这 也 证 明 计 算 
不 仅仅 是 一 个 智能 的 暗喻 ; 推理 是 可 以 通过 计算 机 来 执行 的 一 系列 的 计算 。 

计算 机 出 现 之 后 ， 最 早期 的 某 些 计算 机 应 用 是 人 工 智 能 程序 。 例 如 ，SamuelL1959] 在 
1952 年 开发 的 国际 跳棋 程序 ， 在 20 世纪 50 年 代 末 期 ， 人 们 可 以 通过 这 样 的 程序 来 学 习 下 
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Fal Pas BEBE. Newell 和 Simon[1956 ] FF A WY #2 FF “iB FB BHC BE” AY LATE BA er oP E 

除了 研究 高 级 的 符号 推理 ， 还 有 一 些 工作 研究 低级 学 习 ， 这 些 研究 从 神经 元 如 何 工作 
受到 启发 。McCulloch 和 PittsL1943] 说 明了 一 个 简单 的 阔 值 “形式 神经 元 ?如何 作 为 图 灵 完 
全 机 器 的 基础 (图 灵 完 全 指 在 可 计算 性 理论 中 ， 编 程 语言 或 任意 其 他 的 逻辑 系统 具有 等 价 
于 通用 图 灵机 的 计算 能 力 。 换言之 ,此 系统 可 与 通用 图 灵机 互相 模拟 。 图 灵 完 全 性 通常 指 
具有 无 限 存储 能 力 的 通用 物理 机 器 或 编程 语言 。 一 一 译 者 注 )。 最 早 提出 神经 网 络 的 人 是 
MinskyL1952]， 早 期 关于 神经 网 络 标志 性 的 研究 工作 是 Rosenblatt[1958] 的 感知 机 。 而 
1968 年 之 后 ， 神 经 网 络 的 研究 工作 面临 衰退 ， 因 为 Minsky 和 Papert[1988] 认 为 这 种 学 术 
表达 不 胜任 智能 行为 。 

早期 的 应 用 程序 主要 关注 该 领域 的 基础 方面 : 学 习 和 和 搜索。 怎么 描述 解决 问题 需要 的 
知识 是 要 解决 的 主要 难题 之 一 ， 这 个 问题 变 得 越 来 越 明 显 。 在 学 习 之 前 ，Agent HRA 
合 已 知 知识 的 目标 语言 。 有 很 多 表达 方法 ， 从 基于 特征 的 表达 到 McCarthy 和 Hayes 
[1969] 的 复杂 的 逻辑 表达 ， 还 有 很 多 介 于 两 者 之 间 的 表达 方式 ， 如 Minsky[1975] 提 出 的 

20 世纪 六 七 十 年 代 ， 在 一 些 限定 领域 中 建立 的 自然 语言 理解 系统 取得 了 成 功 。 例 如 ， 
Daniel Bobrow[ 1967 ]f4] STUDENT 应 用 程序 ， 可 以 用 来 解决 用 自然 语言 表示 的 高 中 代数 
问题 。Winograd[1972] 的 SHRDLU 系统 ， 可 以 利用 受 限 的 自然 语言 讨论 和 解决 模拟 积木 
世界 的 任务 。CHAT-80[ Warren 和 Pereira，1982] 可 以 回答 一 些 用 自然 语言 表达 的 地 理 问 
题 。 图 1-2 展示 了 CHAT-80 可 以 回答 的 一 些 问题 ， 它 的 回答 是 建立 在 国家 、 河 流 等 事实 
数据 库 的 基础 上 。 这 些 系统 仅仅 是 在 有 限 的 领域 内 利用 受 限 的 词汇 和 语句 结构 来 进行 推 
理 的 。 





阿富汗 与 中 国 相 邻 吗 ? 


上 沃尔特 的 首都 是 哪里 ? 

哪 国 的 首都 是 伦敦 ? 

最 大 的 非洲 国家 是 哪个 ? 

最 小 的 美洲 国家 有 多 大 ? 

与 非洲 国家 及 亚洲 国家 相 紫 邻 的 海洋 是 哪个 ? 

与 波罗的海 相 邻 国家 的 首都 有 哪些 ? 

SMM HBS DDR? 

赤道 以 南 并 且 不 属于 澳洲 s 的 那些 国家 的 总 面积 是 多 少 ? 
每 个 大 洲 上 国家 的 平均 面积 是 多 少 ? 

每 个 大 洲 都 多 于 一 个 国家 吗 ? 

流入 黑海 的 河流 发 源 于 哪些 国家 ? 
SEE 





哪个 地 中 海 沿岸 的 国家 与 人 口 超过 印度 的 国家 相 邻 ? 
哪些 国家 与 大 西洋 相 邻 ,并 自信 口 超过 1000 万 ? 








图 1-2 CHAT-80 可 以 回答 的 一 些 问题 


在 20 世纪 七 八 十 年 代 ， 关 于 专家 系统 有 大 量 的 研究 工作 ， 目 的 是 获取 某 个 领域 内 专家 
的 知识 ， 以 便于 用 计算 机 来 执行 专家 任务 。 例 如 ， 从 1965 年 到 1983 年 在 有 机 化 学 领域 开发 
的 DENDRAL 专家 系统 [Buchanan 和 Feigenbaum，1978]， 可 以 为 新 型 有 机 化 合 物 提出 理论 结 
构 。 从 1972 到 1980 年 开发 的 MYCIN 专家 系统 [Buchanan 和 Shortliffe，1984]， 可 以 进行 血液 
传染 性 疾病 的 诊断 ， 制 定 抗生素 治疗 方案 并 解释 它 的 形成 原因 。 同 期 ， 人 工 智 能 推理 得 到 了 


日 此 处 “澳洲 ” 指 " 澳 大 拉 西 亚 ”， 一般 包括 澳大利亚 、 新 西 兰 及 附近 南 太平 洋 诸 岛 。 一 一 译 者 注 
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迅速 发 展 ， 例 如 Prolog 语言 [Colmerauer 和 Roussel, 1996; Kowalski, 1988], 

在 20 世纪 90 年 代 和 21 世纪 初 ， 人 工 智 能 的 子 学 科 迅 速 发 展 ， 例 如 认 知 学 、 概 率 推 
理 、 决 策 理论 推理 、 规 划 、 艇 人 式 系统 、 机 器 学 习 以 及 其 他 很 多 学 科 。 本 领域 的 基础 部 分 
获得 了 进一步 发 展 ， 这 也 正 是 本 书 的 基础 组 成 部 分 。 


与 其 他 学 科 的 关系 


人 工 智能 是 一 门 非常 年 轻 的 学 科 ， 而 像 哲 学 、 神 经 生物 学 、 进 化 生物 学 、 心 理学 、 经 
济 学 、 政 治学 、 社 会 学 、 人 类 学 、 控 制 工程 学 等 学 科研 究 智 能 已 经 很 入 了 。 

人 工 智能 学 科 可 以 描述 为 人造 心 理学 ”"、 “实验 性 哲学 ”或 “计算 认识 论 ”"， 其 中 认识 论 
主要 研究 知识 。 人 工 智能 可 以 看 做 研究 知识 与 智能 本 质 这 个 老 问 题 的 一 种 方式 ， 但 采用 了 
比 以 前 更 有 效 的 实验 工具 。 不 同 于 哲学 、 心 理学 、 经 济 学 和 社会 学 等 只 是 传统 地 观察 智能 
系统 的 外 部 行为 ， 人 工 智能 研究 者 们 则 对 智能 行为 的 可 执行 模型 进行 实验 验证 。 更 重要 的 
是 ， 这 些 模型 还 可 以 检查 和 重新 设计 ， 并 以 一 种 完全 和 严格 的 方式 进行 实验 。 现 代 计 算 机 可 
以 构造 模型 ， 而 哲学 家 只 能 建立 理论 。 人 工 智能 研究 者 可 以 对 这 些 模 型 进行 实验 ， 而 不 仅仅 
是 讨论 它 的 抽象 性 质 。 人 工 智 能 理论 可 以 作为 其 实现 的 基础 。 此 外 ， 我 们 常常 会 对 简单 的 
Agent 表现 出 复杂 的 行为 感到 非常 惊讶 ， 而 这 些 是 我 们 没有 实现 这 些 Agent 时 所 想不到 的 。 

对 比 过 去 几 个 世纪 里 飞行 器 的 发 展 与 过 去 几 十 年 里 计算 机 的 发 展 ， 是 非常 有 建设 性 意 
义 的 。 我 们 通过 几 个 方面 来 理解 飞行 ， 一 种 是 仔细 剖析 已 知 的 飞行 动物 ， 并 将 它们 的 共同 
结构 特征 假设 为 任意 飞行 Agent 的 必要 基本 特性 。 通 过 这 种 方法 ， 检 查 鸟 类 、 蝙 蝠 及 昆虫 
的 共同 特征 发 现 ， 飞 行 需要 翅膀 的 拍 动 ， 而 翅膀 上 面 需 有 羽毛 或 薄膜 。 此 外 ， 这 个 假设 可 
以 通过 实验 来 验证 ， 就 像 伊 卡 洛 斯 做 的 那样 ， 将 翅膀 捆绑 在 手臂 上 ， 拍 动 ， 然 后 跳 到 空 
中 。 另 一 个 可 行 方 法 就 是 试图 理解 飞行 的 原理 ， 不 仅仅 局 限于 自然 界 中 的 飞行 。 它 涉及 艇 
入 假设 原理 的 人 工 产品 结构 ， 除 了 能 飞 之 外 ， 其 他 地 方 与 飞行 动物 根本 没有 类 似 之 处 。 通 
过 第 二 种 方法 不 仅 制造 出 了 飞机 这 样 有 用 的 工具 ， 还 产生 了 航空 动力 学 这 门 能 更 好 地 理解 
飞行 原理 的 学 科 。 

人 工 智能 采用 和 航空 动力 学 类 似 的 方法 。 人 工 智能 研究 者 们 对 验证 智能 本 质 的 一 般 假 
设 很 感 兴 趣 ， 而 制造 智能 机 器 并 不 一 定 要 模仿 人 类 或 组 织 。 通 过 考虑 "飞机 真 的 能 飞 吗 ?” 
这 样 类 似 的 问题 ， 给 我 们 提供 了 解决 “计算 机 真 的 能 思考 吗 ?” 问 题 的 一 个 思路 。 

人 工 智能 与 计算 机 科学 紧密 相连 。 尽 管 人 工 智能 领域 的 很 多 研究 者 不 是 计算 机 科学 
家 ,但 即使 不 是 大 部 分 ,很 多 的 人 工 智能 研究 都 需 依靠 计算 机 科学 才能 完成 。 由 于 计算 的 
研究 是 人 工 智能 的 中 心 ， 因 此 这 是 合理 的 。 理 解 算法 、 数 据 结构 及 组 合 复杂 性 对 于 构建 智 
能 机 是 非常 重要 的 。 人 工 智 能 也 为 计算 机 科学 带 来 了 很 多 衍生 利益 ， 从 分 时 系统 到 计算 机 
代数 系统 等 。 | 

最 后 ， 人 工 智 能 可 以 看 做 认 知 科学 的 一 部 分 。 认 知 科 学 连接 着 多 门 研究 认 知 与 推理 的 
学 科 ， 如 心理 学 、 语 言 学 、 人 类 学 和 神经 学 等 。 人 工 智能 区 别 于 认 知 科学 的 地 方 是 它 能 提 
供 工 具 构 造 智能 ， 而 不 仅仅 是 研究 Agent 的 外 部 行为 或 分 析 智 能 系统 的 内 部 运行 原理 。 


1.3 环境 中 的 Agent 


人 工 智 能 研究 具有 实用 性 的 推理 : 为 了 完成 某 项 任务 或 达到 某 一 目的 而 进行 的 推理 。 
Agent 由 感知 、 推 理 和 行为 组 成 。Agent 在 环境 中 进行 某 种 行为 ， 这 里 的 环境 也 可 以 包括 


第 工 章 ， 人工 智能 与 Agent 7 


其 他 的 Agent。 一 个 Agent 与 其 周围 的 环境 统称 为 一 个 世界 。 
例如 ， 被 称 做 机 器 人 的 Agent， 是 由 带 有 物理 传感器 的 计算 引擎 和 制动器 组 成 的 ， 其 
行为 环境 是 物理 环境 ; 再 者 ， 能 够 提供 建议 的 计算 机 专家 系统 ， 能 够 感知 信息 以 及 执行 任 
务 ; Agent 也 可 以 只 是 存在 于 纯粹 的 计算 环境 中 的 程序 ， 如 软件 Agent。 
图 1-3 展示 了 Agent 的 输入 输出 。 任 何 时 能 力 
候 ，Agent 所 做 的 都 依赖 于 以 下 几 个 方面 : a 
1) Agent 及 其 环境 的 先 验 知识 。 ~ 






D 与 环境 的 交互 历史 ， 其 中 包括 ; 先 验 知识 

。 当前 环境 的 观察 值 。 eects 

。 先前 经 验 和 观察 值 ， 或 从 学 习 中 获得 >< 
到 的 其 他 数据 。 先前 经 验 : 


3) 试 图 达到 的 目标 或 整个 世界 状态 的 
偏好 。 

4) 它 能 够 执行 的 最 原始 动作 ， 即 能 力 。 图 1-3 Agent 与 环境 的 交互 

两 个 具有 相同 先 验 知识 、 历 史 、 能 力 和 目标 的 Agent 才 会 产生 同样 的 行为 ， 改 变 其 中 
任何 一 个 条 件 都 将 导致 不 同 的 行为 结果 。 

每 个 Agent 都 有 一 些 内 部 状态 ， 能 为 它 的 环境 及 其 自身 进行 编码 。Agent 可 能 会 有 多 
个 要 达到 的 目标 ， 在 环境 中 为 达到 这 些 目标 而 存在 多 种 行为 方式 ， 以 及 通过 推理 、 感 知 和 
学 习 来 改变 信念 的 多 种 方法 。 纵 观 所 有 Agent， 从 恒温 控制 器 到 一 组 移动 机 器 人 ， 到 由 人 
类 提供 感知 和 行为 的 诊断 建议 系统 ， 再 到 社会 本 身 ， 其 复杂 度 各 不 相同 。 


1.4 知识 表示 


一 般 情 况 下 ， 要 解决 的 问题 或 要 完成 的 任务 ， 包 括 解 的 构成 ， 是 通过 非 形式 化 的 方式 
给 出 的 ， 例 如 “他 们 到 达 时 ， 请 立即 递交 包 庄 ”或 “请 修理 家 中 存在 故障 的 电力 系统 ”。 

计算 机 解决 问题 的 一 般 框架 在 图 1-4 中 给 出 。 为 了 解决 问题 ， 系 统 设计 者 必须 : 

。 具体 化 任务 ， 并 制定 解决 方案 。 

。 用 特定 的 语言 表达 问题 ， 以 便 计算 机 进行 推理 。 

。 用 计算 机 计算 出 相应 结果 进行 输出 ， 可 以 给 用 户 呈 现 一 个 答案 或 是 在 环境 中 需要 

执行 的 一 系列 行为 。 
。 解释 作为 问题 的 解决 方案 的 输出 结果 。 





问题 
pe 


图 1-4 问题 解决 中 的 表示 规则 


知识 是 可 以 用 来 解决 本 领域 问题 的 领域 信息 。 解 决 多 种 问题 需要 多 种 知识 ， 而 且 知 识 
必须 能 够 在 计算 机 中 进行 表达 。 为 了 解决 问题 ， 设 计 应 用 程序 时 ， 我 们 需要 为 如 何 表达 知 
识 来 进行 定义 。 表 示 方 案 是 Agent 中 使 用 的 知识 形式 ， 而 一 部 分 知识 的 表示 则 是 知识 的 内 
部 表达 。 表 示 方 案 指定 了 知识 的 形式 。 知 识 库 则 是 Agent 中 存储 的 所 有 知识 的 表达 。 
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一 个 好 的 表示 方案 是 很 多 竞争 性 目标 间 的 折 中 。 表 示 应 该 

。 足够 丰富 ， 能 够 表达 解决 问题 所 需 的 所 有 知识 。 

。 尽 可 能 地 接近 问题 ， 并 且 简 洁 、 自 然 、 可 维护 。 我 们 应 该 很 容易 地 看 出 该 表达 与 
要 表达 的 领域 之 间 的 关系 ， 以 便 很 容易 地 确定 该 表达 是 否 正 确 。 问 题 的 微小 变化 ， 
也 应 导致 问题 表达 的 微小 改变 。 

能 够 经 得 起 有 效 计算 的 检验 ， 通常 指 能 够 有 效 地 描述 问题 特征 ， 有 利于 获得 计算 
增益 ， 并 且 能 够 在 准确 度 和 计算 时 间 之 间 进 行 权衡 。 

。 能 够 从 人 类 、 数 据 或 先前 经 验 中 获得 。 

已 经 设计 出 了 不 同 的 表示 方案 ， 很 多 方案 开始 时 有 某 些 目标 ， 后 来 扩展 到 包含 其 他 目 
标 。 例 如 ， 有 些 表示 方案 设计 出 来 用 于 学 习 ， 而 后 被 扩充 用 来 解决 更 多 的 问题 ， 并 具有 了 
推理 能 力 。 有 些 表示 方案 设计 出 来 用 于 表达 意识 ， 而 后 又 加 上 了 推理 及 学 习 。 有 些 表示 方 
案 设 计 出 来 用 于 推理 ， 而 后 逐渐 变 得 更 为 自然 、 易 懂 。 

当 给 了 一 个 问题 或 任务 时 ， 以 下 一 些 问 题 必须 要 考虑 到 。 

。 问题 的 解决 方案 是 什么 ?怎么 样 的 解决 方案 才 算 好 的 ? 

。 问题 如 何 进行 表达 ?解决 问题 时 需要 世界 中 哪些 特性 ?需要 哪些 具体 的 世界 知识 ? 
Agent 如 何 从 专家 那里 或 以 前 的 经 验 中 获得 知识 ? 这 些 知识 如 何 被 调试 、 维 护 和 
改进 ? 

。 Agent 如 何 计算 输出 结果 ， 以 此 作为 问题 的 解决 方案 ? 能 不 能 把 最 坏 情 况 下 或 平 
均 情况 下 的 临界 时 间 减 到 最 小 ?理解 答案 是 怎样 推导 出 来 的 对 于 一 个 人 来 说 很 重 
要 吗 ? 

这 些 问 题 会 在 下 一 部 分 讨论 ， 本 书 的 表示 方案 部 分 也 会 涉及 这 些 问 题 。 


1.4.1 定义 解 


给 定 问题 的 一 个 非 形式 化 描述 ， 在 考虑 使 用 计算 机 之 前 ， 知 识 库 设计 者 应 该 确定 问题 
解 的 构成 。 不 仅 是 人 工 智能 领域 ， 任 何 涉及 软件 设计 的 地 方 都 会 存在 这 个 问题 。 很 多 软件 
工程 都 涉及 问题 描述 的 提炼 。 

通常 ， 并 不 是 所 有 问题 都 能 很 好 地 说 明 ， 不 仅 是 有 些 地 方 没有 进行 说 明 ， 而 且 没 有 说 
明 的 地 方 也 不 能 被 随意 填充 。 举 例 来 说 ， 当 你 让 交易 Agent 搜索 出 那些 有 健康 隐患 的 度假 
村 时 ， 你 并 不 希望 它 返 回 所 有 的 度假 村 信息 ， 尽 管 符 合 你 要 求 的 度假 村 也 包含 在 里 面 。 然 
而 ， 如 果 Agent 根本 就 没有 度假 村 的 完全 知识 ， 那 么 返回 所 有 的 信息 可 能 是 保证 符合 要 求 
的 唯一 方法 。 同 样 ， 当 要 求 将 垃圾 传送 到 垃圾 桶 时 ， 传 送 机 器 人 却 把 所 有 的 物品 都 传送 到 
了 垃圾 桶 里 ， 尽 管 保证 了 所 有 垃圾 都 能 被 带 走 ， 但 这 样 一 个 传送 机 器 人 你 不 会 想 要 。 人 工 
智能 的 很 多 成 果 来 自 于 常识 推理 ; 我们 希望 计算 机 能 够 对 未 阐明 的 假设 做 出 常识 性 的 
推论 。 

给 定 一 个 定义 明确 的 问题 ， 下 一 步 就 是 判断 如 果 答 案 不 正确 或 不 完全 ， 对 问题 的 解决 
有 没有 影响 。 例 如 ， 如 果 说 明 书 要 求 所 有 的 实例 ， 那 么 缺少 几 个 实例 可 以 吗 ? 如 果 增 加 另 
外 的 实例 可 以 4? A ELAS i SARE RE TE 7 而 不 仅仅 是 任意 方 
案 。 一 般 分 为 以 下 4 类 解决 方案 : 

。 最 优 解 。 问题 的 最 优 解 是 指 在 所 有 的 可 能 解 中 最 符合 求解 质量 度量 的 最 好 的 解 ， 

这 个 度量 用 序数 来 描述 。 但 是 在 一 些 情况 下 ， 例 如 综合 多 种 标准 或 不 确定 推理 时 ， 
我 们 需要 一 种 要 考虑 相对 大 小 的 基数 度量 。 序 数 度 量 的 一 个 例子 是 让 机 器 人 带 出 
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尽 可 能 多 的 垃圾 ， 越 多 越 好 。 作 为 基数 度量 的 例子 ， 你 可 以 让 传送 机 器 人 在 最 小 
化 传送 距离 的 同时 ， 将 尽 可 能 多 的 垃圾 带 到 垃圾 桶 ， 明 确 规定 它们 之 间 要 进行 权 
衡 。 为 了 节省 时 间 ， 丢 掉 一 些 垃圾 可 能 会 更 好 。 一 般 基数 度量 的 期 望 值 ， 即 效用 
函数 主要 应 用 于 决策 论 中 。 
。 可 满足 解 。Agent 经 常 并 不 需要 最 优 解 ， 只 需 一 些 满足 条 件 的 解 就 可 以 。 可 满足 
解 是 指 那 些 满足 充分 条 件 的 解 。 例 如 ， 人 们 可 以 命令 机 器 人 带 出 所 有 的 垃圾 ， 也 
可 以 命令 它 只 带 出 三 件 垃圾 。 
。 近似 最 优 解 。 好 的 基数 度量 的 一 个 优点 是 它 允 许 使 用 近似 值 。 近 似 最 优 解 是 指 其 
质量 度量 接近 理论 上 存在 的 最 优 解 。 一 般 Agent 不 需要 问题 的 最 优 解 ， 只 要 那些 
解 接 近 最 优 就 可 以 。 例 如 ， 机 器 人 为 了 送出 垃圾 可 能 并 不 需要 达到 最 优 的 传输 距 
离 ， 可 能 只 需要 在 最 优 距 离 10% 范 围 以 内 就 可 以 。 
对 于 一 些 问题 ， 获 得 近似 最 优 解 比 获 得 最 优 解 更 容易 ， 但 对 于 另外 一 些 问 题 ， 获 得 近 
似 最 优 解 和 获得 最 优 解 一 样 难 。 一 些 近 似 算 法 能 够 得 到 在 最 优 解 的 一 定 范围 内 的 解 ， 而 有 
的 则 根本 找 不 到 。 
。 可 能 解 。 可 能 解 是 指 一 个 解 ， 尽 管 它 可 能 不 是 问题 的 真正 解 ， 但 也 是 一 个 有 硕 望 
的 解 。 这 是 一 种 用 精确 的 方式 来 对 可 满足 解 进行 近似 的 方法 。 例 如 ， 在 传送 机 器 
人 可 能 会 丢 垃 圾 或 者 无 法 捡 起 来 的 状况 下 ， 可 以 设置 成 机 器 人 有 80% 的 可 能 性 失 
起 三 件 垃圾 。 我 们 一 般 期 望 去 区 分 错 肯 定 误 差 率 (计算 机 给 出 的 不 正确 答案 的 比 
率 ) 和 错 和 否定 误差 率 ( 计 算 机 没有 给 出 的 正确 答案 的 比率 )。 有 些 应 用 程序 可 能 会 容 
忍 这 些 误差 中 的 一 个 远 超 过 另 一 个 。 
这 里 的 分 类 并 不 是 互相 排斥 的 。 有 一 种 称 为 可 能 近似 正确 (PAC) 的 学 习 形式 ， 认 为 可 
能 学 习 到 一 种 近似 正确 的 概念 。 


1.4.2 表示 


如 果 你 对 解 的 本 质 有 要 求 ， 你 就 需要 表示 问题 ， 以 便于 计算 机 来 解决 它 。 

计算 机 和 人 类 思维 都 属于 物理 符号 系统 。 符 号 是 一 种 可 以 被 操作 的 有 意义 的 图 案 。 例 
如 ， 字 、 句 、 手 势 、 文 章 里 的 标记 与 二 进 制 序列 都 是 符号 。 符 号 系统 对 符号 进行 创造 、 复 
制 、 修 改 和 撤销 。 本 质 上 来 说 ， 符 号 是 符号 系统 中 被 操作 的 基本 单元 。 

这 里 用 到 物理 这 个 术语 ， 是 因为 物理 符号 系统 中 的 符号 是 部 分 现实 世界 中 的 物理 对 
象 ， 尽 管 它们 可 能 存在 于 计算 机 和 大 脑 内 部 。 它 们 需要 物理 地 影响 行为 或 运动 控制 。 

很 多 人 工 智 能 技术 依赖 于 Newell 和 Simon[1976] 提 出 的 物理 符号 系统 假设 ;: 

物理 符号 系统 具有 必要 有 上 且 充分 的 机 制 以 进行 一 般 的 智能 活动 。 

这 是 一 个 强 有 力 的 假设 ， 它 的 意思 是 任意 Agent 必定 是 一 个 物理 符号 系统 ， 而 且 物 理 符 
号 系统 包括 智能 行为 所 需 的 一 切 ， 没 有 不 可 思议 的 量子 论 现象 。 世 界 中 的 物理 符号 系统 也 需 
要 一 个 用 来 进行 感知 和 行为 的 主体 。 物 理 符 号 系统 假设 是 经 验 性 的 假设 ， 像 其 他 科学 假设 一 
样 ， 它 也 需要 证 据 来 论证 ， 或 者 有 其 他 可 替代 的 假设 存在 。 实 际 上 ， 它 也 可 能 是 错误 的 。 

Agent 可 以 看 做 通过 操作 符号 来 产生 动作 。 其 中 许多 符号 用 来 表示 世界 中 的 事物 ; 一 
些 符号 则 用 来 表示 有 用 的 概念 ， 这 些 概念 可 能 具有 扩展 含义 ， 也 可 能 不 具有 扩展 含义 ; 另 
外 还 有 一 些 符号 表示 Agent 的 内 部 状态 。 

Agent 可 以 用 物理 符号 系统 对 世界 进行 建 模 。 世 界 模型 是 世界 中 真实 存在 的 详情 和 世 
界 的 动态 行为 的 表达 。 世 界 并 没有 什么 特定 的 标准 。 所 有 的 模型 都 是 抽象 出 来 的 ， 它 们 表 
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达 的 仅仅 是 世界 的 一 部 分 ,遗留 了 很 多 其 他 细节 。Agent 可 以 有 一 个 非常 简单 的 世界 模 
型 ,也 可 以 有 一 个 非常 详细 的 世界 模型 。 抽 和 象 的 层次 是 指 按 抽象 程度 排列 的 一 个 偏 序 。 低 
层 抽 象 比 高 层 抽象 拥有 更 多 的 细节 。Agent 可 以 拥有 多 重 的 ， 其 至 是 对 立 的 世界 模型 。 模 
型 ， 不 是 看 它 是 否 正确 ， 而 是 看 它 是 否 有 用 。 
【 例 1-2) 传送 机 器 人 可 以 对 环境 进行 高 层 抽象 建 模 ， 包 括 房 间 、 走 廊 、 门 和 障碍 物 ， 
忽略 距离 、 机 器 人 的 大 小 、 需 要 的 操纵 角度 、 车 轮 的 移动 、 包 右 的 重量 、 障 碍 物 的 详细 情 
况 、 加 拿 大 的 政治 形势 以 及 其 他 事物 。 机 器 人 也 可 以 通过 将 一 些 细节 加 入 模型 中 对 环境 进 
行 低层 次 抽象 建 模 。 这 些 细节 中 的 一 些 与 机 器 人 完成 任务 无 关 ， 而 一 些 则 是 机 器 人 成 功 的 
关键 。 例 如 ， 在 某 些 情况 下 ， 为 了 使 机 器 人 不 在 一 些 特定 的 拐角 处 被 卡 住 ， 机 器 人 的 大 小 
和 操纵 角度 是 关键 。 而 在 其 他 情况 下 ， 如 果 机 器 人 接近 走廊 的 中 心 位 置 ， 那 么 就 不 需要 对 
它们 的 宽度 或 操纵 角度 进行 建 模 。 s 
选择 一 个 合适 的 抽象 层次 比较 难 ， 因 为 
。 对 于 人 类 来 说 ， 高 层次 的 描述 更 容易 说 明和 理解 。 
。 低层 次 的 描述 更 准确 ， 更 有 预测 性 。 通常 高 层次 抽象 忽略 的 细节 可 能 正 是 解决 问 
题 的 关键 之 处 。 

。 层次 越 低 ， 越 难 进行 推理 。 因 为 低层 次 模型 的 解 涉及 更 多 的 步骤 和 更 多 可 供 选 择 
的 行动 路 线 。 

。 你 可 能 根本 不 知道 低层 次 建 模 所 需要 的 信息 。 例 如 ， 传 送 机 器 人 可 能 不 知道 自己 
会 遇 到 什么 样 的 障碍 物 或 地 板 有 多 滑 ， 并 在 遇 到 这 些 情况 时 应 该 做 些 什么 。 

对 环境 进行 多 层次 抽象 建 模 可 能 会 更 好 些 。 这 个 问题 会 在 2. 3 节 进 行 讨论 。 

我 们 可 以 对 生物 系统 和 计算 机 进行 多 层次 抽象 描述 。 逐 层 降 低 的 层次 是 神经 层次 、 生 
物化 学 层次 (什么 样 的 化 学 药品 和 电势 可 以 传送 )、 化 学 层次 (会 进行 什么 样 的 化 学 反应 )、 
物理 层次 (原子 力 和 量子 论 现象 )。 在 神经 层次 之 上 需要 什么 层次 来 计算 智能 仍 是 一 个 开放 
性 难题 。 注 意 ， 这 些 层次 描述 在 科学 本 来 的 分 层 结构 中 得 到 共鸣 ， 科 学 家 被 划分 为 物理 学 
家 、 化 学 家 、 生 物 学 家 、 心 理学 家 、 人 类 学 家 等 。 尽 管 我 们 不 知道 哪个 层次 的 描述 更 重 
要 ， 但 我 们 猜想 建立 一 个 Agent 不 必 模 仿 人 类 的 每 一 层 ， 可 以 在 现代 计算 机 的 基础 上 进行 
高 层次 建 模 。 这 个 猜想 是 人 工 智 能 研究 的 一 部 分 。 

对 生物 实体 和 计算 性 实体 来 说 ， 以 下 两 个 层次 看 起 来 是 共有 的 : 

。 知识 层 是 将 Agent 所 知道 的 、 所 相信 的 以 及 它 的 目标 抽象 出 来 。 知 识 层 考虑 的 是 

Agent 知道 什么 ， 而 不 是 它 如 何 进 行 推理 。 例 如 ， 传 送 Agent 的 行为 可 以 用 它 是 
否 知 道 包 于 有 没有 到 达 和 是 否 知道 特定 的 人 在 哪里 来 描述 。 人 类 和 自动 Agent 都 
可 以 在 知识 层次 上 进行 描述 。 在 这 个 层次 上 ， 不 需要 说 明 如 何 计算 解 和 Agent 可 
能 会 用 到 哪些 策略 。 

。 符号 层 是 对 Agent 的 推理 进行 描述 。 为 了 实现 知识 层 ，Agent 需要 通过 操作 符号 
来 产生 答案 。 我 们 设计 了 很 多 认 知 科学 方面 的 实验 来 判定 推理 时 会 产生 什么 样 的 
符号 操作 。 注 意 ， 知 识 层 说 明 的 是 对 于 外 部 世界 ，Agent 相信 什么 ， 它 的 目标 是 
什么 ; 而 符号 层 是 对 Agent 内 部 关于 外 部 世界 推理 的 描述 。 


1.4.3 推理 与 行为 


符号 的 操作 产生 行为 被 称 为 推理 。 
人 工 智能 表达 不 同 于 用 传统 语言 编写 的 计算 机 程序 的 一 个 重要 方面 是 ， 人 工 智能 表达 
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的 主要 是 需要 计算 什么 ， 而 不 是 怎样 进行 计算 。 我 们 可 能 明确 指出 Agent 应 该 找 出 病人 最 
可 能 得 的 疾病 ， 或 指出 机 器 人 应 该 拿 杯 咖啡 ,而 不 是 给 出 做 这 些 事情 的 具体 指令 。 很 多 人 
工 智能 推理 涉及 通过 可 能 空间 的 搜索 来 决定 怎样 完成 任务 。 

在 决定 Agent 要 做 什么 时 ， 有 三 个 方面 的 计算 必须 区 别 开 来 : 1) 要 设计 Agent 时 的 计 
算 ; 2) 在 观察 世界 、 需 要 行动 之 前 ，Agent 能 做 的 计算 ; 3) 当 Agent 执行 某 些 动作 时 所 做 
的 计算 。 - 

。 设计 时 刻 推理 是 在 设计 Agent 时 进行 的 推理 。 它 由 Agent 的 设计 者 而 不 是 Agent 

本 身 来 完成 。 

。 离线 计算 是 在 动作 之 前 由 Agent 完成 的 计算 ， 它 包括 汇编 和 学 习 。Agent RAK 
取 背 景 知 识 和 数据 ， 并 将 其 汇编 成 可 用 的 形式 ， 称 之 为 知识 库 。 背 景 知 识 可 以 在 
设计 时 或 离线 状态 时 给 出 。 

。 在 线 计算 是 在 观察 环境 及 在 环境 中 进行 某 些 行为 时 由 Agent 完成 的 计算 。 在 线 状 
态 获取 的 信息 称 为 观察 。Agent 必须 使 用 知识 库 和 观察 来 决定 要 做 什么 。 
区 别 设计 者 思维 中 的 知识 和 Agent 思维 中 的 知识 是 重要 的 。 考 虑 以 下 极端 情况 : 

。 一 种 极端 情况 是 ， 高 度 专业 化 的 Agent 在 为 其 设计 的 环境 中 能 够 运行 良好 ， 但 离 
开 这 个 合适 位 置 却 变 得 无 能 为 力 。 设 计 者 可 能 为 构造 Agent 做 了 大 量 工 作 ， 而 
Agent 本 身 不 用 做 很 多 就 可 以 运行 良好 。 举 个 自动 调 温 器 的 例子 ， 设 计 一 个 自动 调 
温 器 是 困难 的 ， 因 为 它 必须 在 正确 的 温度 下 准确 打开 或 关闭 ， 但 是 自动 调 温 器 本 
身 并 不 需要 做 很 多 计算 。 再 比如 ， 绘 图 机 器 人 每 天 在 汽车 厂 绘 制 相同 零件 的 例子 。 
为 了 完美 地 完成 绘制 任务 ， 可 能 需要 很 多 设计 时 间或 离线 计算 ， 但 绘图 机 器 人 几 
乎 不 需要 在 线 计算 就 能 完成 绘图 任务 ; 它 能 感知 到 有 一 个 零件 在 特定 的 位 置 ， 然 
后 进行 其 预先 定义 好 的 动作 。 这 些 专 业 Agent 不 适用 于 不 同 的 环境 或 变化 的 目标 。 
如 果 一 个 不 同 的 零件 放 在 特定 的 位 置 ， 绘 图 机 器 人 不 会 注意 到 ， 即 使 注意 到 了 也 
不 知道 要 做 些 什 么 ， 必 须 通过 重新 设计 或 重新 编程 来 绘制 不 同 的 零件 ， 或 者 将 其 
改变 成 为 磨 光 机 或 跟踪 洗涤 机 。 

。 另 一 种 极端 情况 是 非常 柔性 的 Agent， 可 以 在 任意 环境 下 生存 ， 可 以 在 运行 时 接 
受 新 任务 。 简 单 的 生物 Agent， 如 昆虫 ， 能 适应 复杂 变化 的 环境 ， 但 是 它们 不 能 
执行 任意 任务 。 设 计 一 个 可 以 适应 复杂 环境 和 变化 目标 的 Agent 是 一 个 主要 挑战 。 
Agent 能 够 比 设计 者 知道 更 多 的 环境 细节 。 就 算是 在 生物 学 方面 也 没有 制造 出 这 
样 的 Agent。 人 类 可 能 是 唯一 现存 的 实例 ， 但 即使 是 人 类 也 需要 时 间 来 适应 新 
环境 。 

虽然 柔性 Agent 是 我 们 的 终极 梦想 ， 但 研究 者 们 也 不 得 不 通过 更 多 的 平凡 目标 来 达到 
这 个 目标 。 研 究 者 们 已 经 制造 了 很 多 适应 于 特定 环境 下 的 特定 Agent， 而 不 是 制造 那 种 能 
够 适应 任何 环境 完成 任何 任务 的 通用 型 Agent。 设 计 者 能 够 对 特定 环境 结构 进行 开发 ， 而 
Agent 不 必 对 其 他 的 可 能 性 进行 推理 。 

构造 Agent 的 两 大 一 般 策略 如 下 : 

。 第 一 个 策略 是 简化 环境 并 为 这 些 环境 建立 复杂 的 推理 系统 。 例如 ， 工厂 机 器 人 可 
以 在 工厂 这 个 工程 环境 里 完成 各 种 复杂 的 任务 ， 但 它们 在 自然 环境 中 可 能 是 没 用 
的 。 很 多 问题 的 复杂 性 可 以 通过 简化 环境 来 降低 。 建 立 实用 性 的 系统 也 是 非常 重 
要 的 ， 因 为 许多 环境 可 以 为 Agent 设计 得 更 简单 些 。 

。 第 二 个 策略 是 在 自然 环境 中 建立 简单 的 Agent。 这 种 策略 是 受到 昆虫 的 启发 ， 昆 
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虫 虽然 只 有 有 限 的 推理 能 力 却 能 在 复杂 环境 中 生存 。 随 着 它们 的 任务 越 来 越 复 杂 ， 
Agent 可 以 被 设计 为 拥有 更 多 的 推理 能 力 。 
简化 环境 的 一 个 优点 是 我 们 能 用 它 证 明 Agent 的 性 质 或 在 特定 状态 对 Agent 进行 优 
化 。 证 明 Agent 的 性 质 或 优化 主要 需要 一 个 Agent 及 其 环境 的 模型 。Agent 可 能 会 做 一 点 
或 很 多 推理 ， 但 Agent 的 观察 者 或 设计 者 能 够 对 Agent 及 其 环境 做 出 推理 。 例 如 ， 设计 者 
能 够 证 明 Agent 是 否 能 够 达到 目标 ， 是 否 能 够 避免 陷入 不 利 的 状况 中 (安全 目标 ) ， 会 不 会 
在 某 个 地 方 卡 住 (活跃 性 )， 会 不 会 最 终 开 始 它 应 该 做 的 事情 (公平 )。 当 然 ， 证明 实 际 上 等 
价 于 其 模型 。 
为 复杂 环境 构造 Agent 的 优点 是 人 类 的 生活 环境 和 我 们 想 要 Agent 活动 的 环境 是 多 种 
多 样 的 。 
幸运 的 是 ， 这 些 方面 的 研究 都 一 直 在 进行 。 在 第 一 种 情况 下 ， 研 究 者 们 从 简单 的 环境 
人 人手， 逐步 使 环境 变 得 更 加 复杂 。 在 第 二 种 情况 下 ， 研 究 者 们 增加 Agent 行为 的 复杂 性 。 


1.5 复杂 性 维度 


从 自动 调 温 器 到 在 竞争 性 环境 中 有 多 种 目标 的 企业 ，Agent 在 环境 中 行为 的 复杂 性 各 
不 相同 。Agent 的 设计 存在 多 个 维度 的 复杂 性 。 这 些 维度 可 以 分 开 来 考虑 ， 但 建造 智能 
Agent 时 必须 组 合 起 来 。 这 些 维度 定义 了 人 工 智能 的 一 个 设计 空间 ， 空 间 里 的 不 同 点 可 以 
通过 改变 维度 值 来 得 到 。 

这 里 我 们 介绍 9 个 维度 : 模块 性 、 表 示 方 案 、 规 划 期 、 感 知 不 确定 性 、 效 用 不 确定 
性 、 偏 好 、Agent 数量 、 学 习 和 计算 限制 。 这 些 维度 对 智能 系统 的 设计 空间 做 了 粗糙 的 划 
分 。 有 时 为 了 建立 智能 系统 必须 做 出 很 多 其 他 的 选择 。 


1.5.1 模块 性 


第 一 维 是 模块 性 的 层次 。 

模块 性 是 系统 可 以 分 解 成 能 被 独立 理解 的 交互 模块 的 程度 。 

模块 性 对 降低 复杂 性 是 重要 的 。 它 在 脑 部 结构 中 很 明显 ， 是 计算 机 科学 的 基础 ， 也 是 
任何 大 型 组 织 的 重要 部 分 。 

模块 性 主要 通过 层次 结构 分 解体 现 。 例 如 ， 人 的 视觉 皮层 与 眼睛 组 成 了 一 个 模块 ， 可 
以 采光 ， 还 可 以 达到 更 高 层 的 目标 ， 输 出 一 些 简 化 的 情景 描述 。 如 果 模 块 再 分 成 更 小 的 模 
块 ， 并 以 此 类 推 ， 还 可 以 分 成 更 小 的 模块 ， 直 至 分 成 最 原始 的 操作 ， 我 们 说 模块 性 是 分 层 
的 。 这 种 分 层 组 织 正 是 生物 学 家 研究 的 一 部 分 。 大 型 组 织 都 有 一 个 分 层 结构 ， 这 样 高 层 决 
策 者 才 不 会 被 细节 压倒 ， 也 不 必 过 问 所 有 的 组 织 细节 。 计 算 机 科学 中 的 抽象 编程 和 面向 对 
象 编程 ， 就 是 利用 模块 性 与 抽象 性 ， 使 系统 更 为 简化 。 

在 模块 性 维度 中 ，Agent 的 结构 是 下 列 一 种 : 

。 扁平 的 : 系统 中 没有 组 织 结构 ; 

。 模块 化 的 ， 系统 可 被 分 解 成 独立 的 可 理解 的 交互 模块 ; 

。 分 层 的 : 系统 是 模块 化 的 ， 模 块 本 身分 解 成 了 交互 模块 ， 它 们 中 的 每 一 个 又 都 是 

一 个 分 层 系统 ， 由 此 循环 下 去 ， 直 到 分 解 成 最 简单 的 组 件 。 

在 扁平 结构 或 模块 化 的 结构 中 ，Agent 主要 进行 单 层 抽象 上 的 推理 ， 而 在 分 层 结 构 

H, Agent 主要 是 在 多 层 抽 象 上 进行 推理 。 低 层 结构 主要 涉及 低层 抽象 的 推理 。 
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[B 1-3] 一 个 Agent， 比 如 你 自己 ， 从 家 中 到 海外 的 度假 目的 地 去 旅行 ， 必 须 从 家 
里 到 机 场 ， 然 后 飞 到 目的 地 附近 的 机 场 ， 再 从 飞机 场 到 达 目 的 地 。 它 还 可 以 将 实际 的 移动 
分 解 成 一 系列 的 腿 部 运动 或 车 轮 滚 动 。 在 扁平 结构 表达 中 ，Agent 会 选择 某 一 层 抽象 表达 
并 在 该 层 进行 推理 。 模 块 化 表达 将 任务 分 解 成 很 多 可 以 独立 解决 的 子 任务 (例如 ， 订 票 ， 
到 达 出 发 地 机 场 ， 到 达 目 的 地 机 场 ， 到 达 度 假 的 地 点 )。 在 分 层 结构 表达 中 ，Agent 将 用 
分 层 的 方式 解决 这 些 子 任务 ， 直 至 将 问题 分 解 成 一 些 简 单 的 问题 ， 例 如 传送 http 请 求 或 
采取 一 种 特定 的 步骤 。 本 

对 于 降低 构建 能 在 复杂 环境 中 动作 的 Agent 的 复杂 性 ， 层 次 分 解 是 重要 的 。 然 而 ， 为 
了 考察 其 他 维度 ， 我 们 首先 忽略 分 层 结 构 ， 而 假设 它 是 一 个 扁平 结构 。 忽 略 层 次 分 解 这 种 
做 法 通常 适用 于 中 小 型 问题 求解 ， 它 适用 于 低 等 动物 、 小 型 组 织 或 中 小 型 的 计算 机 程序 。 
当 问题 或 系统 较为 复杂 时 ， 就 需要 一 些 分 层 结构 了 。 

如 何 建立 具有 分 层 结构 的 Agent 将 在 2. 3 节 进 行 讨 论 。 


1.5.2 表示 方案 


表示 方案 维度 主要 讨论 如 何 描述 世界 。 状 态 是 指 世 界 中 影响 Agent 行为 的 各 种 方法 。 
我 们 可 以 将 世界 的 状态 分 解 成 Agent 的 内 部 状态 ( 它 的 信念 状态 ) 和 环境 状态 两 个 部 分 。 

在 最 简单 层次 上 ，Agent 可 以 以 一 系列 独立 的 确定 状态 来 进行 推理 。 

【 例 1-4】 加 热 器 的 自动 恒温 器 一 般 有 两 个 信念 状态 : 关闭 和 加 热 。 环 境 有 三 个 状态 : 
冷 、 和 舒适 和 热 。 信 念 状态 与 环境 状态 的 不 同 组 合 ， 可 以 组 成 相对 应 的 六 种 状态 。 这 些 状态 
可 能 无 法 完全 形容 世界 ， 但 它们 足以 来 描述 自动 恒温 器 的 所 有 行为 了 。 如 果 环 境 处 于 冷 状 
态 ， 自 动 恒温 器 应 该 调 到 或 停留 在 加 热 状态 ;如 果 环 境 处 于 热 的 状态 ， 自 动 恒温 器 应 该 调 
到 或 停留 在 关闭 状态 ;如果 环境 处 于 舒适 状态 ， 自 动 恒温 器 停留 在 现在 所 在 的 状态 下 即 
可 。Agent 在 加 热 状态 可 以 加 热 ， 而 在 关闭 状态 则 不 能 加 热 。 < 

用 状态 特征 或 状态 真 假 的 命题 进行 推理 ， 要 比 列 举 一 系 列 状态 进行 推理 更 容易 些 。 状 
态 可 以 用 一 系列 的 特征 来 描述 ， 其 中 每 个 特征 在 每 个 状态 中 都 有 一 个 值 ( 见 4.1 节 )。 

【 例 1-5】 用 来 看 护 房 屋 的 Agent 可 能 必须 对 灯泡 是 否 被 破坏 进行 推理 。 它 可 能 有 每 
个 开关 的 位 置 、 状 态 ( 是 否 工 作 良 好 ， 是 否 短路 ， 是 否 被 破坏 ) 和 每 个 灯泡 是 否 能 够 正常 工 
作 的 特征 。 特 征 pos_s2 有 这 样 的 特点 : 当 开 关 s2 调 上 去 时 ，pos_s2 的 特征 值 为 up; 当 开 
关 调 下 来 时 ，pos_s2 特征 值 为 dowwn。 房 间 里 照明 设备 的 状态 可 以 用 这 一 系列 的 特征 值 来 
描述 。 < 

布尔 型 命题 的 值 只 有 真 、 假 两 种 情况 。30 个 命题 经 过 编码 可 以 有 2° = 1 073 741 824 
种 状态 。 用 这 30 个 命题 来 阐述 和 推理 可 能 比 使 用 100 多 万 个 状态 更 容易 些 。 男 外 ， 用 状 
态 的 紧凑 表示 法 会 更 容易 理解 些 ， 因 为 它 意 味 着 Agent 已 经 掌握 了 本 领域 内 的 一 些 规 律 。 

【 例 1-6】 考虑 一 个 能 够 识别 字母 表 里 字 母 的 Agent， 假 设 这 个 Agent 在 观察 一 个 
30X30 像素 的 二 值 图 像 ， 这 900 个 网 格 点 中 的 每 一 个 或 开启 或 关闭 (也 就 是 ， 没 有 使 用 任 
何 色 彩 或 灰 度 信息 )。 这 个 行为 将 决定 图 像 中 绘 出 的 是 字母 {a，…，z} 中 的 哪 一 个 。 这 个 
图 像 有 2” 种 不 同 的 状态 ， 从 图 像 状态 到 {a，…，z} 这 26 个 字母 的 映射 函数 会 有 26” 种 。 
我 们 甚至 无 法 用 状态 空间 来 表达 这 些 函 数 。 因 此 ， 我 们 定义 了 图 像 的 特征 ， 例 如 线段 ， 并 
用 这 一 系列 的 特征 定义 了 从 图 像 到 字母 的 映射 函数 。 < 

当 描 述 复杂 世界 时 ， 特 征 可 以 依赖 于 关系 与 个 体 。 单 个 个 体 上 的 关系 是 一 种 属性 ， 个 
体 之 间 的 每 一 种 可 能 关系 上 都 存在 特征 。 
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【 例 1-7】 在 例 1-5 中 看 护 房 屋 的 Agent 可 以 将 灯泡 与 开关 看 做 个 体 ， 并 有 它们 之 间 
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position_s; =up 这 个 特征 。 当 Agent 遇 到 开关 并 且 具 有 此 开关 的 先 验 知识 时 ，Agent 就 能 
根据 关系 对 这 些 开 关 进 行 推 理 。 a 

[B] 1-8] 假设 Agent 是 一 个 学 生 课 程 登 记 系 统 ， 用 特征 grade 来 描述 一 个 学 生 所 选 
的 一 门 课程 的 成 绩 。 对 于 每 一 组 学 生 - 课 程 对 (student，course)， 存 在 特征 passed， 特 征 
passed 依赖 于 特征 grade 。 用 学 生 个 体 、 课 程 个 体 、 成 绩 个 体 以 及 grade 和 passed 的 关系 
来 进行 推理 ， 可 能 会 更 容易 些 。 通 过 定义 特征 passed 是 怎样 依赖 于 特征 grade 的 ，Agent 
便 能 将 其 应 用 于 每 个 学 生 与 每 门 课程 。 而 且 ， 在 Agent 知道 任意 个 体 及 其 所 有 特征 之 前 ， 
这 些 就 能 完成 。 < 

因此 ， 用 个 体 及 他 们 之 间 的 关系 进行 相关 性 描述 ， 比 对 那些 特征 或 命题 进行 处 理 ， 可 
能 更 为 简便 。 例 如 ，100 个 个 体 和 其 二 值 关 系 可 以 用 100 = 10 000 个 命题 及 2”™ 个 状态 来 
表示 。 通 过 一 系列 的 关系 与 个 体 推理 ，Agent 可 以 只 通过 状态 对 全 部 类 型 的 个 体 进行 解释 
推理 ， 而 不 用 枚 举 特征 或 命题 。Agent 有 时 不 得 不 对 无 限 个 体 集 进行 推理 ， 如 所 有 数 的 集 
合 或 所 有 语句 的 集合 。 对 于 无 限 个 体 集 ，Agent 无 法 用 状态 或 特征 进行 推理 ， 只 能 在 关系 
层面 上 进行 推理 。 

在 表示 方案 维度 中 ，Agent 可 以 通过 以 下 几 个 方面 进行 推理 : 

。 状态 ; 

。 特征 ; 

。 从 个 体 与 关系 角度 进行 的 关系 描述 。 

一 些 框架 结构 是 通过 状态 来 描述 的 ， 而 有 些 则 是 通过 特征 完成 的 ， 另 外 有 些 则 是 建立 
在 关系 的 基础 上 。 

我 们 将 在 第 3 章 介 绍 状 态 推理 ， 在 第 4 章 介绍 特征 推理 ， 关 系 推理 将 在 第 12 章 介 绍 。 


1.5.3 规划 期 


下 一 个 维度 是 用 来 说 明 Agent 规划 的 向 前 时 间 的 程度 。 例如， 一 只 狗 被 叫 过 来 ， 它 会 
为 了 未 来 能 得 到 奖励 而 奔跑 ， 而 不 仅仅 是 为 了 得 到 即时 的 奖励 而 行动 。 狗 不 会 为 了 未 来 任 
意 无 限期 长 的 目标 而 行动 (例如 几 个 月 后 )， 而 人 类 可 以 (例如 为 了 得 到 明年 的 假期 而 努力 
工作 )， 这 个 说 法 看 来 是 对 的 。 

当 Agent 决定 做 什么 时 ， 能 够 观察 到 未 来 的 远近 ， 我 们 称 之 为 规划 期 。 也 就 是 说 ， 规 
划 期 是 Agent 认为 它 的 动作 结果 所 能 影响 的 向 前 程度 。 从 完备 性 上 来 说 ， 包 括 Agent 不 能 
及 时 进行 推理 的 非 规划 情况 。 我 们 把 Agent 做 规划 时 所 考虑 的 时 间 点 称 为 阶段 。 

在 规划 期 维度 中 ，Agent 可 以 分 为 以 下 几 种 : 

。 非 规划 Agent， 是 指 在 决定 做 什么 时 ， 不 考虑 未 来 的 影响 ， 或 者 不 涉及 时 间 的 Agent。 

。 有 限期 规划 者 ， 是 指 遵循 固定 有 限时 间 步 的 Agent。 例 如 ， 医 生 治疗 病人 ， 但 之 

前 一 般 会 花 一 些 时 间 做 一 些 检查 ， 所 以 整个 过 程 可 以 分 为 两 个 阶段 来 规划 : 检查 
阶段 、 治 疗 阶段 。 在 退化 状况 下 ，Agent 可 能 只 进行 一 个 时 间 步 ， 我 们 称 它 是 贪 
楚 的 或 目光 短 浅 的 。 

。 不 确定 期 规划 者 ， 是 指 能 够 向 前 探索 几 步 但 是 不 预先 确定 多 少 步 的 Agent。 例 如 ， 

一 个 Agent 必须 到 达 一 个 位 置 ， 但 是 预先 不 确定 到 达 那 个 位 置 需要 多 少 步 。 
。 无 限期 规划 者 ， 是 指 一 直 在 进行 规划 的 Agent。 通 常 称 之 为 过 程 。 例 如 ， 腿 式 机 
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器 人 上 的 稳定 模块 永远 在 运行 ， 只 有 在 达到 稳定 状态 时 才 会 停止 ， 因 为 这 种 机 器 
人 永远 在 为 了 防止 摔 倒 而 维持 稳定 。 


1.5.4 不 确定 性 


Agent 可 以 假设 没有 不 确定 性 ， 也 可 以 把 不 确定 性 考虑 进去 。 不 确定 性 可 以 分 为 两 部 
分 : 感知 不 确定 性 和 效用 不 确定 性 。 

1. 感知 不 确定 性 

在 一 些 情况 中 ，Agent 能 够 直接 观察 到 世界 的 状态 。 例 如 ， 在 一 些 棋 类 游戏 中 ， 或 在 
工人 工作 的 场地 ，Agent 能 够 精确 地 知道 世界 的 状态 。 在 许多 其 他 情况 中 ，Agent 能 对 世 
界 的 状态 有 一 个 带 噪声 的 感知 ， 它 所 能 做 的 最 好 的 就 是 在 它 所 感知 的 状态 集 上 建立 概率 分 
布 。 例 如 ， 给 定 一 个 病人 的 症状 ， 医 师 实 际 上 可 能 不 知道 病人 患 了 什么 病 ， 而 只 有 病人 可 
能 患 有 疾病 的 概率 分 布 。 

感知 不 确定 性 维度 主要 是 用 来 说 明 Agent 能 否 从 观察 中 得 到 世界 的 状态 。 

。 完全 可 观察 ， 是 指 Agent 能 够 从 观察 结果 中 得 到 世界 的 状态 。 

。 部 分 可 观察 ， 是 指 Agent 不 能 直接 观察 到 世界 的 状态 。 出 现 这 种 情况 可 能 是 相同 

的 观察 结果 导致 很 多 可 能 的 状态 或 是 观察 结果 有 了 噪声。 

将 世界 假设 为 完全 可 观察 的 是 一 种 简化 假设 ， 其 目的 是 为 了 使 推理 更 容易 进行 。 

2. 效用 不 确定 性 

在 一 些 情况 中 ，Agent 能 够 知道 动作 效果 ， 也 就 是 说 ， 给 定 一 个 状态 和 动作 ， 它 能 精 
确 地 预测 出 在 那 种 状态 下 运行 那 种 动作 后 的 状态 。 例 如 ， 与 文件 系统 进行 交互 的 Agent 能 
够 在 给 定 的 文件 系统 的 状态 下 预测 出 删除 一 个 文件 后 的 效果 。 在 很 多 情况 下 ，Agent 很 难 
预测 动作 效果 ， 最 好 也 只 能 有 一 个 效果 的 概率 分 布 。 例 如 ， 即 使 一 个 人 知道 狗 的 状态 ， 他 
可 能 也 不 会 知道 对 狗 进 行 命令 后 的 效果 ， 但 基于 经 验 ， 他 可 能 会 知道 这 只 狗 可 能 会 做 些 什 
么 。 即 使 是 那些 他 以 前 没有 见 过 的 狗 ， 狗 的 主人 甚至 也 会 知道 在 他 发 出 命令 时 那些 狗 会 做 
些 什 么 。 

效用 不 确定 性 从 动力 学 方面 可 以 分 为 : 

。 确定 性 的 一 一 动作 所 导致 的 状态 由 动作 及 之 前 的 状态 决定 。 

。 随机 的 一 一 对 于 结果 状态 ， 只 能 给 出 一 个 概率 分 布 。 

本 维度 只 在 世界 完全 可 观察 时 成 立 。 如 果 世 界 是 部 分 可 观察 的 ， 针 对 动作 效果 依赖 于 
不 可 观察 的 特征 的 情况 ， 随 机 系统 可 以 建立 一 个 确定 性 系统 模型 。 它 是 一 个 单独 的 维度 ， 
因为 我 们 建立 的 很 多 框架 都 是 针对 完全 可 观察 的 、 随 机 动作 的 情况 。 

对 确定 性 行为 的 规划 将 在 第 8 章 介 绍 ， 对 随机 动作 及 部 分 可 观察 域 的 规划 将 在 第 9 章 
介绍 。 


1.5.5 偏好 


Agent 会 为 自身 获取 更 优 的 结果 ， 做 出 某 一 动作 优 于 另 一 动作 选择 的 唯一 原因 是 其 偏 
好 动作 会 导致 更 理想 的 结果 。 

一 些 Agent 可 能 会 有 一 个 简单 的 目标 ， 可 能 是 要 达到 的 状态 或 是 要 证 明 为 真 的 命题 ， 
例如 为 主人 拿 一 杯 咖啡 (在 她 有 咖啡 的 状态 时 结束 ) 。 另 外 一 些 Agent 则 可 能 会 有 更 为 复杂 
的 偏好 。 例 如 ， 医 师 一 般 会 考虑 痛苦 、 预 期 寿命 、 生 命 质量 、 金 钱 成 本 (对 病人 、 医 生 和 
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社会 )、 在 诉讼 案例 中 为 决定 辩护 的 能 力 以 及 其 他 一 些 必要 的 东西 。 当 这 些 条 件 发 生 冲 突 
时 ， 正 如 他 们 总 是 做 的 那样 ， 医 师 必须 对 这 些 考虑 做 出 折 中 处 理 。 
偏好 维度 是 看 Agent 是 否 有 : 
。 目标 。 此 目标 可 能 是 在 某 一 最 终 状态 下 要 达到 的 完成 目标 ,或 是 在 所 有 已 访问 过 
的 状态 中 必须 被 保持 的 目标 。 例 如 ， 机 器 人 的 目标 可 能 是 拿 到 两 杯 咖啡 和 一 只 香 
花 ， 并 且 在 这 期 间 不 能 制造 混乱 或 伤害 任何 人 。 
。 复杂 偏好 。 复 杂 偏 好 涉及 在 不 同时 期 权衡 各 种 期 望 的 结果 。 序 数 (ordinal) 偏好 就 
是 只 注重 偏好 的 排序 。 基 数 (cardinal) 偏 好 涉及 有 关 值 的 大 小 。 例 如 ， 比 起 黑 咖 啡 
来 说 ， 山 姆 更 喜欢 卡 布 奇 诺 ， 而 比 起 茶 来 说 ， 更 喜欢 黑 咖 啡 ， 这 是 序数 偏好 。 基 
数 偏好 给 定 等 待 时 间 与 饮料 类 型 间 的 权衡 ， 各 种 球道 之 间 的 权衡 ， 如 果 咖 啡 的 味 
道 特别 好 ，Sam 就 能 在 等 待 咖啡 的 过 程 中 容忍 时 间 的 煎熬 。 
目标 将 在 第 8 章 介绍 ， 复 杂 偏 好 将 在 第 9 章 介绍 。 


1.5.6 Agent 数量 


仅 一 个 Agent 在 它 所 属 的 环境 里 进行 推理 就 已 经 足够 困难 。 然 而 ， 如 果 有 多 个 Agent HE 
行 推理 将 更 为 困难 。 多 Agent 背景 中 的 Agent 应 该 具备 对 其 他 Agent 进行 策略 性 推理 的 能 
力 ， 其 他 Agent 可 能 会 对 它 进行 欺骗 或 操纵 ， 也 可 能 会 与 它 进行 合作 。 对 于 多 Agent, AW 
其 他 Agent 可 以 采取 确定 性 策略 ， 因 此 最 优 的 选择 经 常 是 随机 动作 。 即 使 当 Agent 之 间 进 行 
合作 ， 具 有 共同 目标 时 ， 协 商 与 交流 的 问题 也 使 得 多 Agent 推理 更 具 挑战 性 。 然 而 ， 许 多 领 
域 包含 多 个 Agent， 而 且 忽略 其 他 Agent 策略 的 推理 并 不 是 最 好 的 方式 。 

从 单个 Agent 的 角度 来 看 ，Agent 数量 维度 主要 是 考虑 Agent 是 否 进行 : 

。 单个 Agent 推理 。Agent 会 假设 其 他 的 Agent 为 环境 的 一 部 分 。 如 果 没 有 其 他 的 
Agent， 或 者 其 他 Agent 的 动作 不 会 因为 这 个 Agent 的 动作 而 改变 ， 那么 这 个 假 
设 是 合理 的 。 

。 多 Agent 推理 。Agent 会 将 其 他 Agent 的 推理 考虑 进来 。 当 其 他 Agent 的 目标 或 
偏好 部 分 依赖 于 此 Agent 的 行为 ， 或 Agent 必须 与 其 他 Agent 通信 时 ， 这 种 情况 
就 会 发 生 。 

如 果 Agent 同时 进行 动作 ， 或 环境 只 是 部 分 可 观察 的 ， 那 么 与 其 他 Agent 一 起 进行 的 

推理 将 会 更 为 困难 。 多 Agent 系统 将 在 第 10 章 介 绍 。 


1.5.7 学 习 


在 某 些 情况 下 ，Agent 设计 者 可 能 为 Agent 建立 了 一 个 比较 好 的 模型 及 环境 。 但 通常 
情况 下 ，Agent 设计 者 无 法 建立 完美 的 模型 ，Agent 需要 一 些 先 验 知识 或 其 他 的 资源 来 帮 
助 它 进行 决策 。 

学 习 维 度 由 以 下 两 方面 决定 : 

。 已 有 的 知识 。 

。 学 到 的 知识 (从 数据 或 先前 经 验 中 获取 ) 。 

学 习 一 般 意 味 着 要 找到 与 数据 相符 的 最 好 模型 ， 有 时 候 这 就 像 调整 固定 参数 集 一 样 简 
单 ， 但 这 也 就 意味 着 要 从 一 类 表达 中 选择 最 优 的 表达 。 学 习 本 身 就 是 一 个 很 宽泛 的 领域 ， 
但 不 是 孤立 于 人 工 智能 的 其 他 领域 。 除 了 拟 合 数据 外 ， 还 有 其 他 很 多 问题 ， 包 括 如 何 合成 
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背景 知识 ， 需 要 搜集 什么 样 的 数据 ， 如 何 表达 这 些 数 据 以 及 结果 ， 什 么 样 的 学 习 偏 差 是 合 
适 的， 怎样 合理 使 用 学 习 到 的 知识 去 影响 Agent 的 行为 。 
学 习 将 会 在 第 7、11 和 14 章 介绍 。 


1.5.8 计算 限制 


有 时 候 Agent 可 以 足够 迅速 地 决定 它 的 最 好 的 行为 ， 但 通常 会 有 很 多 计算 资源 限制 ， 
阻碍 实施 这 些 最 好 的 行为 。 也 就 是 说 ， 由 于 Agent 的 内 存 限 制 ， 尽 管 某 个 动作 是 最 好 的 ， 
但 是 它 可 能 不 能 够 迅速 地 找到 这 个 最 好 的 动作 。 人 例如， 如果 Agent 必须 现在 动作 ， 在 十 分 
钟 之 前 花费 十 分 钟 的 时 间 来 推理 最 好 应 该 做 什么 ， 就 没有 什么 用 处 。 通 常情 况 下 ，Agent 
必须 权衡 得 到 一 个 解 所 花费 的 时 间 和 解 的 好 的 程度 ;有 时 候 迅 速 地 找到 一 个 合理 解 可 能 要 
优 于 花费 更 长 时 间 来 寻求 一 个 更 好 的 解 ， 因 为 在 计算 期 间 世 界 可 能 会 改变 。 

计算 限制 维度 由 Agent 是 否 具有 以 下 性 质 来 决定 : 

。 完全 理性 : Agent 可 以 推出 最 佳 行动 方案 ， 而 不 考虑 有 限 的 计算 资源 ; 

。 有 限 理性 : 在 给 定 的 计算 限制 上 ， 决 定 它 所 能 找到 的 最 佳 行为 方案 。 

计算 资源 限制 包括 计算 时 间 、 内 存 和 数值 精度 。 其 中 数值 精度 的 限制 是 由 于 计算 机 不 
能 准确 地 表示 实数 而 引起 的 。 

任意 时 间 算 法 是 解 的 质量 随时 间 的 推移 而 提高 的 一 种 算法 。 实 际 上 ， 它 可 以 在 任意 时 
间 产 生 当 前 最 佳 解 ， 但 如 果 给 定 更 多 的 时 间 ， 可 能 会 产生 更 好 的 解决 方案 。 通 过 人 允许 
Agent 存 储 迄 今 为 止 发 现 的 最 佳 解 ， 我 们 可 以 确保 得 到 解决 方案 ， 并 且 解 决 方案 的 质量 不 
SPM. Ril, SH Agent 动作 需要 花费 一 定 的 时 间 ; 对 于 Agent 来 说 ， 在 找到 最 佳 解 之 
前 动作 可 能 更 好 些 。 

【 例 1-9】 图 1-5 说 明了 任意 时 间 算 法 的 计算 时 间 是 如 何 来 影响 解 的 质量 的 。Agent 实 
施 一 个 动作 时 ， 能 做 一 些 计算 来 决定 要 做 什么 。 绝 对 的 解 的 质量 ， 在 时 间 零 点 执行 的 动 
作 ， 如 顶端 的 短 划 线 所 示 ， 会 随 着 Agent 利用 时 间 推 理 而 提高 。 然 而 ， 花 时 间 去 行动 会 有 
损失 。 在 本 图 中 ， 如 底部 的 虚线 所 示 ， 这 个 损 
KZ Agent 执行 动作 之 前 的 时 间 成 比例 。 这 两 
个 值 相 加 就 能 得 到 折扣 的 质量 ,依赖 于 时 间 的 
计算 值 ， 这 就 是 中 间 部 分 的 实 线 。 如 图 1-5 所 
示 ， 一 个 Agent 计算 大 约 需 要 2.5 个 时 间 单 
元 ， 然 后 执行 动作 ， 在 该 点 折扣 质量 达到 最 大 
值 。 如 果 计 算 持 续 长 于 4. 3 个 时 间 单 元 ， 产 生 
的 折扣 质量 将 会 比 仅仅 输出 算法 的 初始 猜测 而 
实际 不 进行 计算 时 更 糟糕 。 解 的 质量 有 一 个 跳 
路 性 的 提高 是 非常 典型 的 ; 当 现 有 的 最 好 解 发 


- AR n 图 1-5 对 任意 时 间 算 法 来 说 ， 解 的 质量 是 一 
生变 化 时 ， 解 的 质量 会 有 一 个 跳跃 性 的 变化 。 个 时 间 函 数 。Agent 必须 选送 一 个 动 


动作 值 





然而 ， 与 等 待 相关 的 损失 通常 并 不 是 一 条 简单 作 。 随 着 时 间 的 推移 ，Agent 能 够 决定 

的 直线 。 < 更 好 的 动作 。 短 划 线 表示 的 是 ， 如 果 

yz 它 一 开始 就 实施 ，Agent 迄今 为 止 所 能 

a eee 找到 的 最 佳 动作 值 ， 虚 线 表示 Agent 

应 该 立即 实施 动作 还 是 进行 更 多 的 思考 。 这 是 在 等 待 行动 时 减少 的 行为 值 。 实 线 表 
一 项 具有 挑战 性 的 难题 ， 因 为 Agent 通常 无 法 示 Agent 的 净值 ， 是 一 个 时 间 函 数 


确定 ， 当 它 仅 花 费 多 一 点 时 间 进 行 推理 时 ， 到 底 会 有 多 好 。 而 且 ， 在 考虑 是 否 进行 推理 上 
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花费 的 时 间 会 减少 实际 推理 的 可 用 时 间 。 无 论 如 何 ， 有 限 理性 可 以 作为 近似 推理 的 基础 。 
1.5.9 多 维 交 互 


图 1-6 总 结 了 一 系列 复杂 性 的 维度 。 不 幸 的 是 ,我们 无 法 单独 研究 这 些 维度 ， 因 为 它 
们 以 各 种 复杂 的 方式 进行 交互 。 在 这 里 ， 我 们 给 出 一 些 交互 实例 。 


模块 性 扁平 的 、 模 块 化 的 、 分 层 的 

表示 方案 状态 、 特 征 、 关 系 

规划 期 无 规划 、 有 限 阶段 、 不 确定 阶段 、 无 限 阶 段 
感知 不 确定 性 完全 可 观察 、 部 分 可 观察 


效用 不 确定 性 确定 性 的 、 随 机 的 

偏好 目标 、 复 杂 偏 好 

学 习 已 知 的 知识 、 学 到 的 知识 
Agent 数量 单个 Agent, Z Agent 
计算 限制 完全 理性 、 有 限 理性 


图 1-6 复杂 性 维度 


表示 维度 与 模块 性 维度 进行 交互 。 一 些 层次 上 的 模块 甚至 简单 到 可 以 用 一 系列 有 限 状 
态 集 进行 推理 ， 而 其 他 的 抽象 层次 可 能 要 对 个 体 及 关系 进行 推理 。 例 如 传送 机 器 人 ， 维 持 
平衡 的 那个 模块 可 能 仅 有 一 小 部 分 状态 ， 而 必须 优先 考虑 将 多 个 包 圳 传递 给 多 个 人 的 模块 
可 能 必须 对 多 个 个 体 ( 比 如 ， 人 、 包 囊 和 房间 等 ) 及 他 们 之 间 的 关系 进行 推理 。 在 更 高 层次 
上 ， 对 一 天 内 执行 的 动作 进行 推理 可 能 只 需 几 个 状态 来 概括 这 一 天 内 的 不 同 阶段 (如 ， 可 
能 有 三 个 状态 : 忙 时 、 可 请 求 时 和 再 充电 时 )。 

规划 期 与 模块 性 维度 进行 交互 。 例 如 ， 在 较 高 层次 时 ， 跑 过 来 并 得 到 治疗 后 ， 小 狗 可 
能 会 得 到 即时 的 奖励 。 当 决定 将 它 的 爪子 放 在 哪里 时 ， 可 能 会 需要 很 长 时 间 来 得 到 奖励 ， 
这 时 就 不 得 不 规划 一 个 无 限 阶段 。 

感知 不 确定 性 可 能 对 推理 的 复杂 度 有 很 大 影响 。 对 Agent 来 说 ， 当 它 知道 世界 的 状态 
时 比 不 知道 时 更 容易 进行 推理 。 尽 管 对 状态 的 感知 不 确定 性 很 好 理解 ， 但 是 对 个 体 及 关系 
的 感知 不 确定 性 是 现在 研究 的 热点 。 

效用 不 确定 性 与 模块 性 维度 进行 交互 : 在 分 层 结构 的 某 个 层次 上 ， 某 个 动作 可 能 是 确 
定性 的 ， 但 在 另外 的 层次 则 可 能 是 随机 的 。 例 如 ， 你 跟 一 个 你 正 试 图 讨好 的 同伴 飞 到 巴 
黎 ， 在 某 个 层面 上 来 说 ， 你 可 能 知道 你 所 在 的 位 置 (巴黎 )， 在 较 低 层面 上 ， 你 可 能 会 完全 
迷失 并 不 知道 自己 在 哪儿 。 在 负责 维持 平衡 的 更 低层 面 上 ， 你 会 知道 你 在 哪儿 : 你 正 站 在 
地 上 。 在 最 高 层面 上 ， 你 可 能 根本 不 能 确定 是 否 给 同伴 留 下 了 好 印象 。 

偏好 模型 与 不 确定 性 交互 ， 是 因为 Agent 必须 权衡 满足 有 一 定 概 率 的 主要 目标 ， 还 是 
满足 具有 更 高 概率 的 次 要 目标 。 这 个 问题 将 在 9. 1 节 进 行 讨论 。 

模块 性 可 以 使 用 多 Agent。 设 计 单 个 Agent 的 一 种 方式 是 构造 多 个 拥有 共同 目标 的 交 
H. Agent， 这 样 能 够 使 较 高 层次 的 Agent 智能 地 执行 动作 。 一 些 研究 者 ,例如 Minsky 
[1986]， 认 为 智能 是 非 Agent 社会 的 一 个 涌现 特征 。 

学 习 可 以 通过 特征 来 进行 描述 ， 决 定 哪 个 特征 值 能 够 最 好 地 预测 其 他 特征 的 值 。 然 
而 ， 学 习 也 可 以 通过 个 体 及 关系 来 进行 。 我 们 现在 已 在 学 习 层 次 结构 、 在 部 分 可 观察 领域 
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内 学 习 和 多 Agent 学 习 等 方面 做 了 很 多 工作 。 即 使 不 考虑 与 其 他 多 重 维度 的 交互 ， 这 些 研 
究 方向 本 身 也 都 具有 很 大 的 挑战 性 。 

维度 中 模块 性 和 有 限 理性 能 使 推理 更 有 效 。 虽 然 它们 使 形式 化 体系 变 得 更 为 复杂 ， 但 
却 能 够 通过 将 系统 分 解 成 更 小 的 组 件 并 提供 所 需 的 近似 值 ， 使 Agent 能 够 在 有 限时 间 和 有 
限 的 内 存 中 及 时 地 执行 动作 ， 来 帮助 构建 更 为 复杂 的 系统 。 


1.6 原型 应 用 


人 工 智能 领域 的 应 用 广泛 而 且 多 样 化 ， 包 括 医 疗 诊断 、 工 厂 流程 调度 、 险 恶 环境 中 的 
机 器 人 人、 博弈、 太空 中 的 无 人 驾驶 车 辆 、 自 然 语言 处 理 系 统 、 指 导 系 统 等 。 这 些 应 用 并 不 
是 独立 进行 的 ， 我 们 抽象 出 这 些 应 用 的 本 质 特 点 ， 来 研究 智能 推理 及 动作 背后 的 原理 。 

本 节 概 述 了 4 个 应 用 领域 ， 其 中 的 几 个 实例 将 贯穿 整 本 书 。 尽 管 我 们 介绍 的 几 个 实例 
都 很 简单 (如 此 他 们 才 适 用 于 本 书 )， 但 其 应 用 领域 代表 了 人 工 智能 技术 能 够 或 正在 应 用 的 
领域 范围 。 

4 个 应 用 领域 如 下 所 示 : 

。 自主 传送 机 器 人 会 在 某 个 建筑 物 旁 徘徊 ， 负 责 给 里 面 的 人 传送 包 里 和 咖啡 。 这 种 

传送 Agent 能 够 找到 路 径 、 分 配 资源 、 接 受 人 们 的 请 求 、 决 定 优 先 顺 序 、 在 不 伤 
害 到 人 和 它 本 身 的 情况 下 传递 包 圳 。 

。 诊断 助手 帮助 人 们 找 出 问题 并 提出 修改 或 治疗 意见 来 改正 问题 。 例 如 电工 助手 ， 
能 够 在 给 定 电工 问题 特征 的 情况 下 就 房屋 中 的 错误 提出 建议 ， 包 括 保险 丝 烧 断 、 
灯 开 关 毁 坏 、 灯 泡 烧 坏 等 情况 。 再 如 医疗 诊断 动手 ， 在 特定 医疗 领域 和 病人 的 症 
状 及 病历 等 知识 的 基础 上 ， 可 以 发 现 潜 在 的 疾病 、 有 用 的 检查 以 及 合适 的 治疗 手 
段 。 对 检测 和 修理 它 的 人 们 以 及 那些 要 为 它们 的 行为 最 终 负 责 的 人 们 ， 这 种 助手 
可 以 解释 它 的 推理 过 程 。 

。 指导 系统 与 一 个 学 生 进 行 交互 ， 展 示 某 些 领域 的 信息 ， 并 检查 学 生 的 知识 或 行为 。 
这 不 仅仅 是 向 学 生 展 示人 信息。 做 到 像 一 个 好 老师 那样 ， 根 据 每 个 学 生 的 知识 、 学 
习 偏 好 及 误区 ， 做 到 因材施教 ， 展 示 不 同 的 信息 ， 这 是 一 项 更 具有 挑战 性 的 工作 。 
系统 必须 要 理解 所 设计 的 科目 以 及 学 生 们 的 学 习 情 况 。 

+ 一 个 交易 Agent 能 够 知道 一 个 人 想 要 什么 ,能 买 什么 ， 并 为 他 的 利益 服务 。 它 应 

该 知道 他 的 需求 和 偏好 ， 以 及 如 何 权 衡 竞争 性 目标 。 例 如 ， 如 果 一 个 家 庭 要 去 度 
假 ， 旅 游 Agent 需要 预订 宾馆 、 飞 机 票 、 出 租车 以 及 娱乐 活动 ， 所 有 这 些 都 要 相 
互 适合 。 它 应 该 决定 顾客 的 权衡 。 如 果 最 舒适 的 宾馆 无 法 为 这 一 家 人 在 所 有 的 假 
期 内 提供 住宿 ， 这 时 就 要 看 他 们 是 更 喜欢 在 余下 时 间 选 择 更 好 的 宾馆 ， 还 是 并 不 
喜欢 变换 宾馆 。 它 甚至 可 以 为 特价 商品 货 比 三 家 或 一 直 等 到 更 好 的 交易 出 现 。 

本 书 中 所 有 实例 都 应 用 到 上 述 4 个 领域 ， 在 以 下 几 个 小 节 我 们 将 详细 讨论 每 个 应 用 
领域 。 


1.6.1 自主 传送 机 器 人 


我 们 来 想象 一 个 机 器 人 ， 它 具有 多 个 轮子 ， 能 够 捡 起 物体 并 可 以 放下 。 它 具有 感知 能 
力 ， 因 此 它 能 识别 需要 操控 的 目标 物体 ， 也 能 绕 开 障碍 物 。 它 可 以 以 自然 语言 的 形式 接受 
命令 ， 并 遵循 这 个 命令 ， 能 够 在 目标 发 生 冲 突 时 做 出 合理 选择 。 这 种 机 器 人 可 以 应 用 于 办 
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公 环 境 中 ， 来 传送 包 囊 、 邮 件 、 咖 啡 等 物品 ， 或 者 答 入 轮椅 中 来 帮助 残疾 人 。 它 应 该 是 有 
用 且 安全 的 。 
在 图 1-3Agent 的 黑 盒 特征 中 ， 自 主 传送 机 器 人 有 以 下 输入 ， 


先 验 知 识 ， 由 Agent 设计 者 提供 ， 关 于 Agent 自身 的 能 力 ， 比 如 Agent 可 能 会 遇 
到 什么 样 的 目标 物 并 且 区 分 这 些 物 品 ， 请 求 的 含义 ， 还 可 能 有 Agent 的 环境 ， 比 
如 地 图 ; 

通过 动作 得 到 的 先前 经 验 ， 例 如 ， 它 的 动作 效果 ,世界 中 的 常见 对 象 是 什么 ,在 
同一 天 中 的 不 同时 段 会 有 什么 样 的 请 求 ; 

目标 ， 可 以 表示 为 应 该 传送 什么 ， 什 么 时 候 传 ， 以 及 如 何 进行 权衡 ， 例 如 什么 时 
候 它 必须 放弃 一 个 目标 去 完成 另外 一 个 ， 或 者 在 执行 动作 的 迅速 性 与 安全 性 之 间 
做 出 权衡 ; 

观察 值 ， 从 相机 、 声 波 定位 仪 、 触 党 、 声 音 、 激 光 测 距 仪 或 键盘 这 样 的 输入 设备 
中 获取 对 环境 的 观察 值 。 


机 器 人 的 输出 是 机 械 控制 ， 规定 它 的 轮子 如 何 转动 ， 它 的 四 肢 应 该 往 哪 儿 移 动 ， 它 的 
钳子 应 该 做 什么 。 其 他 的 输出 还 有 语音 和 视频 输出 。 

在 复杂 度 的 一 系列 维度 中 ， 当 机 器 人 是 扁平 系统 时 是 最 简单 的 状况 ， 用 一 系列 的 状态 
来 表达 ， 没 有 不 确定 性 ， 有 可 完成 的 目标 ， 没 有 其 他 Agent， 有 给 定 的 知识 ， 而 且 具 有 完 
全 理性 。 在 这 种 情况 下 ， 存 在 一 个 不 确定 阶段 规划 期 ， 决 定 要 做 什么 的 问题 被 简化 成 状态 
图 中 寻找 一 条 路 径 的 问题 。 这 一 部 分 将 在 第 3 章 介绍 。 

对 于 推理 任务 来 说 ， 每 一 个 维度 上 都 能 增加 概念 复杂 度 : 


层次 分 解 ， 通 过 将 每 个 模块 简单 化 而 且 能 够 被 自身 所 理解 ， 从 而 使 整个 系统 的 复 
杂 度 增加 。 第 2 章 将 介绍 这 一 部 分 。 

用 一 系列 的 特征 建 模 比 用 清晰 状态 建 模 使 系统 更 容易 理解 。 例 如 ， 可 能 会 有 机 器 
人 的 位 置 特征 ， 它 所 有 的 燃料 数量 特征 ， 它 所 运送 的 物品 特征 等 。 用 一 系列 的 状 
态 进行 推理 ， 其 中 每 一 个 状态 是 对 应 于 每 个 特征 的 值 的 分 配 ， 失 去 了 这 些 特征 提 
供 的 结构 信息 。 用 一 系列 的 特征 表示 来 进行 推理 ， 可 能 会 开发 计算 增益 。 用 一 系 
列 的 特征 进行 规划 将 在 第 8 章 讨 论 。 当 涉及 多 个 个 体 时 (如 多 人 或 多 个 传送 物 )， 
用 一 系列 的 个 体 与 关系 进行 推理 可 能 会 更 容易 些 。 用 一 系列 的 个 体 与 关系 进行 规 
划 将 在 14.1 节 讨 论 。 

如 果 Agent 仅仅 是 向 前 看 几 步 ， 它 的 规划 期 是 有 限 的 ;而 如 果 它 有 一 组 固定 的 要 
达到 的 目标 集 ， 那 么 它 的 规划 期 就 是 不 确定 的 。 随 着 不 间断 的 需求 和 动作 ， 为 了 
长 期 幸存 ， 它 的 规划 期 是 无 限 的 ， 例 如 ， 邮 件 到 达 时 就 传送 ， 电 池 电 量 低 时 就 先 
进行 充电 。 

可 能 存在 目标 如 “将 咖啡 传送 给 克 里 斯 ， 并 保证 你 自己 一 直 有 能 量 ”"。 更 为 复杂 的 
目标 可 能 会 是 “将 实验 室 打 扫 干 净 ， 并 将 所 有 的 东西 归 位 *”。 有 时 可 能 存在 更 复杂 
的 偏好 ， 例 如 传递 机 器 人 要 完成 “邮件 到 达 时 就 传送 邮件 ， 有 咖啡 请 求 时 要 尽 可 能 
快 地 服务 ， 但 是 传送 标记 为 重要 的 信息 更 重要 ， 并 且 当 克 里 斯 请 求 咖 啡 时 ， 需 要 
更 快 地 为 她 服务 ”。 

可 能 会 有 感知 不 确定 性 ， 因 为 基于 Agent 有 限 的 传感器 ， 它 可 能 不 知道 世界 中 存 
在 什么 。 

可 能 会 有 行为 效用 的 不 确定 性 ， 无 论 是 车 轮滑 动 这 样 的 低层 次 行为 ， 还 是 像 Agent 
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在 传送 咖啡 给 克 里 斯 时 不 知道 是 否 已 经 将 咖啡 放 在 她 的 书桌 上 这 样 的 高 层次 行为 ， 
都 具有 不 确定 性 。 
F 可 能 存在 多 个 机 器 人 ， 它们 可 能 r131 r125 | r123 | r121 | 7119 
相互 协调 来 传递 咖啡 与 包 训 ， 也 
可 能 相互 争夺 电源 插座 。 也 可 能 
会 有 儿童 来 戏弄 机 器 人 。 实验 室 D 
。 机 器 人 有 许多 要 学 习 的 ， 例 如 地 
板 的 光滑 程度 与 它 的 发 亮 程度 成 
一 定 的 函数 关系 ， 克 里 斯 在 同一 
天 的 不 同时 段 去 哪里 闲逛 ， 克 里 
斯 会 在 什么 时 候 要 一 杯 咖啡 ， 什 -一 一 
么 动作 会 得 到 最 高 的 奖励 。 办 
图 1-7 为 传送 机 器 人 描述 了 一 个 典型 一 
的 实验 室 环境 。 环 境 由 4 个 实验 室 和 很 ”图 1-7 传送 机 器 人 环境 图 ，, 说 明 一 个 典型 的 实验 室 
多 办 公 室 组 成 ， 机 器 人 仅仅 能 够 推 开 门 ， 环境 ， 也 说 明了 门 的 位 置 和 它们 开放 哪 一 条 
而 且 图 中 门 的 方向 反映 了 机 器 人 的 移动 路 径 
方向 。 房 间 需 要 钥 古 ， 钥 是 可 以 从 多 种 来 源 获 得 。 机 器 人 需要 在 这 些 房间 之 问 传递 包 囊 、 
饮料 或 菜肴 。 环 境 同样 包括 对 机 器 人 有 潜在 危险 的 楼 梯 。 
1.6.2 诊断 助手 

诊断 助手 在 一 些 特定 系统 ， 如 就 医 的 病人 、 房 屋 中 的 电力 系统 和 汽车 等 ， 给 人 们 提供 
建议 。 诊 断 助手 应 该 为 潜在 的 故障 或 疾病 提供 建议 ， 要 进行 什么 检查 ， 要 开 什 么 样 的 处 
方 。 为 了 给 出 这 些 建议 , 诊断 助手 需要 一 个 系统 模型 ， 包 括 关于 可 能 的 原因 的 知识 ， 有 效 
检查 的 知识 ， 有 效 治疗 的 知识 ， 以 及 系统 的 观察 值 (经 常 称 之 为 症状 ) 。 

为 了 能 够 使 用 ， 诊 断 助手 必须 提供 一 些 附加 值 ， 让 人 们 能 够 容易 使 用 它 ， 而 不 是 变 得 

比 其 价值 更 为 麻烦 。 诊 断 助手 与 因特网 相连 ， 可 以 从 全 世界 吸收 专家 意见 ， 它 的 行为 会 以 
最 新 的 研究 为 基础 。 然 而 ， 它 必须 能 够 判定 所 提出 的 诊断 或 行为 是 不 是 合适 。 人 类 应 该 是 
对 计算 机 系统 持 怀 疑 态 度 ， 因 为 它 不 透明 而 且 令 人 费解 。 当 人 类 为 他 们 所 做 的 负责 时 ， 即 
使 是 基于 计算 机 系统 的 建议 ， 他 们 也 应 该 为 所 提出 的 行为 提供 合理 的 判断 。 

就 图 1-3Agent 的 黑 盒 定义 来 说 ， 诊 断 助手 有 以 下 输入 : 

。 先 验 知识 ， 例 如 开关 和 灯泡 如 何 正 常 工 作 ， 疾 病 或 故障 怎样 显现 出 来 ， 检 查 所 提 
供 的 信息 ， 以 及 修理 或 治疗 后 的 效果 。 

。 先前 经 验 ， 是 以 前 案例 的 一 系列 数据 ， 包 括 修理 或 治疗 后 的 效果 ， 故 障 或 疾病 的 
流行 程度 ， 这 些 疾病 和 故障 的 特征 的 普遍 程度 ， 检 查 的 准确 度 。 这 些 数据 通常 是 
关于 类 似 的 人 工 产品 或 病人 的 ， 而 非 实际 需要 诊断 的 那个 。 

。 修复 设备 的 目标 以 及 在 多 种 选择 中 进行 权衡 ， 例 如 是 修理 还 是 替换 不 同 的 部 件 ， 
病人 是 否 希望 活 得 更 久 些 ， 那 将 意味 着 会 遭受 更 多 的 疼痛 。 

。 设备 或 病人 的 症状 观察 值 。 

诊断 助手 的 输出 是 一 系列 治疗 方法 或 检查 的 建议 ， 以 及 提出 这 些 建议 的 理由 。 

【 例 1-10) 图 1-8 描述 了 一 个 房屋 中 的 电力 分 布 系统 。 在 这 个 房屋 中 ， 电 能 通过 断路 
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器 进入 房屋 ， 然 后 转 到 插座 或 通过 电灯 开关 转 到 电灯 处 。 例 如 ， 当 有 电 进 入 房屋 ， 断 路 器 
ch 打开 ， 开 关 s As 都 合 上 去 或 合 下 来 时 ， 灯 是 开 着 的 。 这 是 一 类 模型 ， 正 常情 况 
下 ， 房 主 都 会 将 电源 放置 在 屋内 ， 在 给 定 开关 位 置 ， 哪 些 灯 开 着 哪些 灯 关 着 的 状况 下 ， 通 
过 模型 确定 所 出 现 的 问题 。 这 个 诊断 助手 可 以 帮助 房 主 或 电工 检查 电力 问题 。 <a 





图 1-8 诊断 助手 的 电气 环境 


PEPER TETA TUA. 

。 层次 分 解 允 许 在 处 理 低 层 原 因 的 同时 维持 高 层 目 标 ， 而 且 能 够 进行 详细 的 系统 监 
控 。 例 如 在 医疗 领域 ， 一 个 模块 可 以 处 理 心脏 监控 的 输出 ， 并 给 出 高 层 的 观察 值 ， 
如 在 心率 发 生变 化 时 给 出 通知 ; 另外 一 个 模块 会 接收 这 个 观察 值 和 其 他 高 层 的 观 
察 值 ， 并 注意 心率 变化 的 同时 引起 的 其 他 症状 。 在 电气 领域 ， 图 1-8 描述 的 是 一 
个 抽象 层次 ， 更 低层 次 可 以 详细 描述 电压 、 电 线 如 何 连 接 和 开关 的 内 部 结构 。 

。 大 多 数 系统 太 过 复杂 而 无 法 用 一 系列 的 状态 进行 推理 ， 所 以 它们 经 常用 一 系列 的 
特征 或 个 体 部 件 及 它们 间 的 关系 来 描述 。 例 如 ， 人 的 身体 可 以 用 一 系列 各 种 各 样 
的 部 件 的 特征 值 来 描述 。 设 计 者 在 不 知道 实际 个 体 的 情况 下 ， 可 能 会 想 建立 动力 
学 模型 。 例 如 ， 电 力 诊断 系统 的 设计 者 在 知道 哪些 灯 和 开关 存在 于 房屋 里 之 前 ， 
也 就 是 在 知道 它们 的 特征 之 前 ， 为 灯 和 开关 如 何 工作 建立 模型 。 这 时 可 以 利用 一 
系列 的 关系 与 交互 ， 当 知道 个 体 时 通过 添加 独立 部 件 来 完成 这 个 模型 。 

。 对 静态 系统 进行 推理 是 可 能 的 。 例 如 ， 给 定 开 关 位 置 ， 当 灯 处 于 关闭 状态 时 ， 对 
可 能 出 现 的 问题 进行 推理 。 也 可 以 对 检查 和 治疗 的 结果 进行 推理 ，Agent 会 一 直 
进行 检查 和 治疗 ， 直 到 问题 解决 ， 或 者 Agent 会 实施 持续 的 系统 监控 ， 持 续 修 复 
任何 问题 。 

。 感知 不 确定 性 是 诊断 需要 面 对 的 基本 问题 。 如 果 Agent 无 法 直接 观察 到 系统 的 内 
部 结构 ， 这 时 就 需要 进行 诊断 。 

。 效用 不 确定 性 也 会 存在 ， 因 为 Agent 可 能 不 知道 治疗 结果 ， 而 且 治疗 经 常会 出 现 
未 预料 到 的 结果 。 

。 目标 ， 可 能 会 像 “确定 出 错 的 问题 "这么 简单 ， 但 通常 会 涉及 花费 、 疼 痛 、 预 期 寿 
命 、 诊 断 的 正确 率 、 疗 效 的 不 确定 性 、 治 疗 的 副作用 不 确定 性 等 方面 的 复杂 权衡 。 

。 尽管 诊断 通常 是 一 个 单 Agent 问题 ， 但 当 涉 及 多 个 专家 时 ， 诊 断 会 变 得 更 复杂 ， 
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因为 他 们 可 能 会 有 冲突 的 经 验 或 模型 ， 也 可 能 会 有 多 个 病人 来 竞争 Agent 的 资源 
(例如 医生 的 时 间 、 手 术 室 )。 

。 学 习 是 诊断 的 基础 。 通 过 学 习 我 们 可 以 得 知 疾病 的 进展 情况 ， 以 及 治疗 进行 得 怎 
么 样 。 对 于 学 习 来 说 ， 诊 断 是 一 个 具有 挑战 性 的 领域 ， 因 为 所 有 的 病人 都 是 不 同 
的 ， 而 每 个 医生 的 经 验 都 只 是 针对 带 有 任意 特定 特征 集 的 少 部 分 病人 。 医 生 们 看 
到 是 有 偏差 的 人 口 样本 ,那些 来 看 病 的 人 ， 通 常 都 会 有 一 些 不 寻常 的 或 疼痛 的 
病症 。 

。 诊断 通常 需要 快速 地 回答 ， 没 有 时 间 进 行 详尽 的 推理 或 做 到 完全 合理 。 


1.6.3 智能 指导 系统 


智能 指导 系统 是 在 某 些 领域 指导 学 生 的 计算 机 系统 。 
例如 ， 在 基础 物理 的 指导 系统 中 ， 如 力学 ， 系 统 会 介绍 理论 知识 ， 给 出 一 些 固 有 的 例 
子 ， 还 会 向 学 生 提 问 ， 当 然 它 必 须 能 够 理解 学 生 的 回答 ， 并 基于 学 生 的 回答 判定 他 掌握 知 
识 的 程度 。 这 会 影响 学 生 向 系统 提出 什么 问题 以 及 系统 向 学 生 提 出 什么 问题 。 学 生 向 系统 
提问 问题 ， 系 统 应 该 能 够 解决 在 物理 学 领域 内 的 问题 。 
就 图 1-3Agent 的 黑 盒 定义 来 说 ， 智 能 指导 系统 有 以 下 输入 : 
。 先 验 知识 ， 由 Agent 设计 者 提供 ， 包 括 教学 主题 、 教 学 策略 、 可 能 误差 和 学 生 的 
误解 。 
。 先前 经 验 ， 是 指导 系统 通过 与 学 生 交 互 获得 的 ， 关 于 学 生 犯 的 错误 、 学 习 一 些 知 
识 需要 多 少 例子 和 学 生 所 遗忘 的 。 所 获得 的 信息 可 以 针对 一 般 学 生 ， 也 可 针对 特 
定 学 生 。 
。 关于 每 个 话题 的 重要 性 、 学 生 期 望 得 到 的 成 就 水 平 以 及 与 可 用 性 相关 的 花费 的 偏 
好 ， 它们 之 间 通 常会 有 很 复杂 的 权衡 。 
。 学 生 测验 结果 的 观察 值 ， 学 生 与 系统 交互 (或 不 交互 ) 的 观察 值 。 学 生 可 以 提出 问 
题 或 提供 新 的 实例 。 
指导 系统 的 输出 是 给 学 生 提供 的 信息 、 学 生 应 该 要 做 的 测试 、 问 题 的 答案 给 父母 和 教 
师 的 报告 。 
每 个 维度 都 与 指导 系统 相关 : 
。 MAA Agent 的 层次 分 解 和 教学 任务 分 解 两 个 部 分 。 在 学 习 高 层 概念 之 前 ， 学 生 
应 该 被 教授 基础 知识 。 指 导 系 统 有 高 层 教学 策略 ， 但 是 在 更 多 较 低 的 层次 上 ， 它 
必须 为 一 个 测验 设计 实例 的 细节 部 分 与 特殊 问题 。 
。 指导 系统 可 以 用 一 系列 学 生 的 状态 来 进行 推理 。 然 而 ， 实 际 上 学 生 以 及 教学 科目 
一 般 都 具有 多 个 特征 。 如 果 所 有 的 例子 都 是 固定 的 ， 而 且 是 针对 一 个 学 生 进行 推 
E, 那么 物理 指导 就 能 够 用 在 设计 时 就 已 知 的 一 系列 特征 来 进行 推理 。 对 于 更 复 
杂 的 情况 ， 指 导 系 统 应 该 会 涉及 个 体 及 其 之 间 的 关系 。 如 果 指 导 系 统 或 学 生 能 够 
利用 多 个 个 体 创造 实例 ， 那 么 这 个 系统 在 设计 时 可 以 不 知道 特征 ， 并 用 一 系列 个 
体 及 其 之 间 的 关系 进行 推理 。 
。 在 规划 期 方面 ， 在 测验 的 整 段 时 期 内 ， 认 为 此 领域 是 静态 的 ， 而 且 学 生 在 测验 时 
不 会 进行 学 习 的 假设 是 合理 的 。 对 一 些 子 任务 来 说 ， 有 限期 比较 合适 。 例 如 ， 可 
能 会 有 教学 、 测 验 、 再 教学 这 样 的 序列 。 在 其 他 情况 下 ， 在 设计 时 系统 根本 不 知 
道 会 进行 到 哪 一 步 ， 直 到 学 生 掌握 一 些 概念 ， 这 是 一 个 无 限期 。 还 可 以 对 教学 建 
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模 以 作为 一 种 持续 的 学 习 和 测验 过 程 ， 并 伴随 着 适当 的 休息 ， 同 时 不 希望 系统 在 
此 过 程 中 终止 。 

不 确定 性 起 很 大 的 作用 。 系 统 不 能 直接 观察 到 学 生 的 知识 ， 它 只 是 基于 学 生 提 问 
的 问题 或 没有 提问 的 问题 以 及 测验 结果 的 一 些 感知 输入 ， 系 统 不 会 确切 地 知道 某 
个 特定 的 教学 片段 的 确定 效果 。 

尽管 系统 有 一 些 像 教 授 某 些 特定 概念 这 样 的 简单 目标 ， 但 它 可 能 更 需要 考虑 很 多 
复杂 的 偏好 。 其 中 一 个 理由 是 由 于 不 确定 性 ， 根 本 就 没有 办 法 保证 学 生 能 够 知道 
所 教授 的 概念 ; 任何 使 学 生 知道 一 个 概念 的 可 能 性 最 大 化 的 方法 都 很 恼人 ; 因为 
当 疲 劳 或 无 聊 导 致 学 生 的 微小 错误 时 ， 系 统 都 会 持续 反复 地 进行 教学 与 测验 。 更 
多 复杂 的 偏好 使 如 下 方面 的 权衡 成 为 可 能 : 概念 的 充分 讲解 、 学 生 的 厌烦 情绪 、 
所 花 的 时 间 和 重复 测验 的 数量 。 用 户 可 能 对 教学 风格 有 偏好 也 应 该 考虑 。 

将 系统 作为 一 个 单 Agent 问题 进行 处 理 更 为 合适 。 然 而 ， 学 生 、 老 师 和 父母 都 有 
必须 考虑 的 不 同 偏好 。 每 一 个 Agent 都 能 不 说 出 真相 地 策略 性 地 实施 动作 。 

我 们 期 望 系统 能 够 学 习 以 下 内 容 : 教学 策略 是 什么 ， 测 验 概念 时 的 一 些 问题 怎么 
样 ， 学 生 犯 的 共同 错误 是 什么 。 它 能 够 学 习 一 般 知 识 或 针对 某 一 主题 的 特定 知识 
(例如 ， 对 于 教授 力学 知识 来 说 ， 学 习 什 么 策略 适用 )， 或 者 针对 某 个 特定 学 生 的 
知识 ， 如 对 Sam 管用 的 知识 。 

选择 最 合适 的 材料 来 介绍 知识 需要 花费 大 量 的 计算 时 间 。 然 而 ， 学 生 必 须 及 时 做 
出 反应 ， 有 限 理性 能 够 确保 在 学 生 等 待 时 系统 不 会 计算 过 长 时 间 。 


1.6.4 交易 Agent 


交易 Agent 就 像 是 一 个 机 器 人 ， 但 它 不 是 与 物理 环境 进行 交互 ， 而 是 与 信息 环境 进行 
交互 。 它 的 任务 是 为 用 户 获取 商品 及 服务 。 它 必须 了 解 用 户 的 需求 ， 并 与 卖 者 进行 交互 
(如 在 网 上 )。 最 简单 的 交易 Agent 是 拍卖 场所 为 用 户 进 行 代理 投标 的 Agent， 系 统 会 在 达 
到 用 户 的 价格 限制 之 前 一 直 维 持 出 价 的 状态 。 更 复杂 的 交易 Agent 会 购买 多 个 互补 的 物 
品 ， 像 预订 机 票 、 宾 馆 、 出 租车 这 样 一 个 组 合 ， 并 权衡 竞争 性 偏好 。 另 外 一 个 交易 Agent 
的 实例 是 一 种 可 以 显示 家 里 有 多 少食 物 与 杂货 的 Agent， 可 以 监控 价格 ， 并 在 购买 之 前 调 
整 顺序 ， 使 费用 降低 到 最 小 。 

在 图 1-3Agent 的 黑 盒 定义 中 ， 交 易 Agent 有 以 下 输入 : 


关于 货物 或 服务 类 型 、 出 售 业务 、 拍 卖 流 程 等 的 先 验 知识 

先前 经 验 ， 哪 儿 是 寻找 特价 物品 的 最 好 地 方 ， 拍 卖 中 价格 会 随时 间 如 何 变化 ， 特 
价 什么 时 候 会 有 上 升 的 倾向 ; 

用 户 想 要 的 物品 的 偏好 ， 怎 样 权衡 有 冲突 的 目标 ; 

什么 物品 是 可 用 的 、 物 品 的 价格 、 可 购买 的 时 间 范 围 这 几 个 方面 的 观察 值 。 


交易 Agent 的 输出 是 用 户 能 够 接受 或 拒绝 的 建议 ， 或 者 是 一 个 实际 购买 。 
交易 Agent 应 该 考虑 以 下 维度 : 


由 于 域 的 复杂 度 ， 层 次 分 解 是 必要 的 。 考 虑 为 旅行 者 做 好 假期 所 有 的 安排 与 购物 
这 样 一 个 问题 。 如 果 有 一 个 专门 购买 机 票 并 且 能 优化 转 乘 和 时 间 的 模块 ， 而 不 是 
在 做 这 些 事情 同时 来 决定 通过 哪个 门 到 出 租车 站 ， 就 会 更 简单 些 。 

交易 Agent 的 状态 空间 对 于 个 体 状 态 推理 来 说 太 大 了 。 还 存在 太 多 的 个 体 ， 因 而 
无 法 用 特征 的 方式 进行 推理 。 交 易 Agent 不 得 不 按照 如 顾客 、 天 数 、 宾 馆 、 航 班 
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等 这 样 的 个 体 进 行 推理 。 

。 交易 Agent 一 般 不 会 只 进行 一 次 购物 ， 通 常会 进行 一 个 序列 的 购物 ， 会 有 大 量 的 
序列 决策 (例如 ， 预 订 宾馆 客房 可 能 会 需要 预订 陆地 交通 ， 然 后 是 存储 包 囊 ) ， 通 
常会 为 持续 的 采购 制定 计划 ， 例 如 Agent 必须 确保 家 里 一 直 会 有 足够 的 食物 。 

。 感知 不 确定 性 ， 因 为 交易 Agent 不 会 知道 所 有 的 可 用 选择 以 及 它们 的 可 用 性 ， 但 
是 必须 找 出 那些 很 快 会 过 时 的 信息 (例如 ， 是 否 有 宾馆 会 被 预订 一 空 )。 旅 行 Agent 
不 会 知道 一 个 航班 是 否 会 被 取消 或 延迟 、 旅 客 的 行李 是 否 会 丢失 等 信息 。 这 种 不 
确定 性 意味 着 Agent 必须 为 意料 之 外 的 事情 做 计划 。 

。 效用 不 确定 性 ， 因 为 Agent 不 知道 一 次 尝试 性 的 购物 会 不 会 成 功 。 

。 复杂 的 偏好 是 交易 Agent 的 核心 部 分 。 主 要 问题 是 允许 用 户 描述 他 想 要 的 东西 。 
用 户 的 偏好 一 般 是 功能 描述 ， 而 不 是 部 件 描述 。 例 如 ， 典 型 的 计算 机 买主 一 般 不 
知道 要 买 什么 样 的 硬件 ， 但 是 知道 他 们 需要 什么 样 的 功能 ， 以 及 能 够 使 用 那些 也 
许 还 不 存在 的 新 特性 的 灵活 性 。 类 似 的 ， 在 旅游 领域 ， 用 户 想 要 什么 样 的 活动 依 
赖 于 具体 的 地 理 位 置 。 即 使 他 们 可 能 根本 不 知道 这 些 风 俗 是 什么 ， 用 户 也 可 能 想 
在 目的 地 参加 当地 的 风俗 活动 。 

。 交易 Agent 必须 对 其 他 的 Agent 进行 推理 。 在 贸易 中 ,价格 由 供需 关系 决定 ; 这 
就 意味 着 对 其 他 竞争 性 Agent 进行 推理 是 重要 的 ， 比 如 在 很 多 物品 通过 拍卖 进行 
出 售 的 世界 中 。 当 物品 必须 互补 时 ， 推 理 变 得 很 困难 ， 如 航班 与 宾馆 预订 ， 还 有 
可 以 相互 取代 的 物品 ， 比 如 公共 汽车 或 出 租车 。 

。 交易 Agent 应 该 了 解 一 些 人 信息， 例如， 什么 物品 卖 得 比较 快 ， 哪 个 供应 商 可 靠 ， 
在 哪里 能 有 比较 划算 的 交易 ， 会 有 什么 意料 之 外 的 事 发 生 等 。 

。 交易 Agent 面临 严峻 的 通信 和 局限 性 。 当 发 现 物品 可 用 并 与 其 他 物品 协调 时 ， 物 品 
可 能 已 经 卖 完了 。 这 种 情况 会 在 卖家 同意 保有 某 些 物品 (同时 不 会 卖 给 别人 ) 时 有 
所 缓解 ， 但 卖家 不 可 能 在 别人 也 想 买 的 时 候 长 时 间 持 有 这 些 物品 。 

由 于 交易 Agent 的 个 性 化 本 质 ， 它 应 该 会 比 通用 购买 者 做 得 更 好 些 ， 比 如 ， 只 提供 套 

装 旅游 。 


1.7 本 书 概述 


本 书 的 余下 部 分 对 由 复杂 性 维度 所 定义 的 设计 空间 进行 探索 ， 对 每 个 维度 进行 独立 的 
合理 考虑 。 

第 2 章 主要 分 析 图 1-3 中 所 提 到 的 黑 盒 的 内 部 结构 ， 并 讨论 Agent 的 模块 及 层次 
分 解 。 

第 3 章 主要 讨论 决策 未 来 行为 的 最 简单 情况 ， 单 个 Agent 用 显 式 状态 推理 ， 没 有 不 确 
定性 ， 有 要 完成 的 目标 ， 但 是 存在 不 确定 期 。 在 这 种 情况 下 ， 解 决 目标 这 个 问题 可 以 抽象 
成 图 中 的 路 径 搜索 问题 ， 并 介绍 了 如 何 利用 本 领域 的 额外 知识 进行 搜索 。 

第 4、5 章 主要 介绍 如 何 利用 特征 。 具 体 地 说 ,第 4 章 主要 考虑 怎样 在 给 定 的 约束 条 
件 下 找到 可 能 的 状态 ， 这 个 约束 是 以 变量 形式 表示 的 特征 的 值 的 配置 。 第 5 章 阐述 在 所 有 
状态 都 满足 给 定 的 约束 集 时 ， 如 何 确 定 命题 是 否 为 真 。 

第 6 章 主要 讲述 如 何 用 不 确定 性 进行 推理 。 

第 7 章 介绍 如 何 从 先前 经 验 及 数据 中 学 习 。 它 包括 学 习 中 最 常见 的 情况 ， 即 利用 特征 
的 监督 学 习 ， 从 中 可 以 学 到 被 观察 目标 的 特征 集合 。 
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第 8 章 考 虑 规划 问题 ， 具 体 对 状态 及 动作 的 基于 特征 的 表达 进行 表示 与 推理 。 第 9 章 
介绍 不 确定 性 中 的 规划 问题 ， 第 10 章 将 这 种 状况 扩展 至 多 个 Agent。 

第 11 章 介绍 不 确定 性 下 的 学 习 及 强化 学 习 。 

第 12 章 介绍 如 何 用 个 体 及 关系 进行 推理 ; 第 13 章 主要 讨论 的 是 本 体 ， 以 及 如 何 建立 
基于 知识 的 系统 ; 第 14 章 说 明 个体 及 关系 的 推理 如 何 与 规划 、 学 习 及 概率 推理 相 结合 。 

第 15 章 回顾 人 工 智能 的 设计 空间 并 说 明 本 书 提供 的 材料 如 何 适应 设计 空间 。 同 时 也 
介绍 一 些 关 于 建立 智能 系统 的 伦理 思考 。 


1.8 本 章 小 结 


。 人 工 智能 是 对 智能 行动 的 计算 Agent 的 研究 。 

+ Agent 在 环境 中 动作 ， 它 只 能 访问 自己 的 先 验 知识 、 历 史 观 察 值 、 目 标 及 偏好 。 

`。 Agent 是 一 个 通过 操纵 符号 来 决定 要 做 什么 的 物理 符号 系统 。 

+ Agent 的 设计 者 应 该 考虑 模块 性 、 如 何 描述 这 个 世界 、 向 前 计划 多 远 、 感 知 和 行为 效果 的 不 确定 
性 、 目 标 或 偏好 的 结构 、 其 他 的 Agent、 如 何 从 经 验 中 学 习 和 所 有 真实 Agent 都 只 有 有 限 的 计算 
资源 的 事实 。 

。 为 了 通过 计算 机 解决 问题 ， 计 算 机 必须 具有 有 效 的 表达 方式 以 便于 推理 。 

。 为 了 知道 什么 时 候 已 经 解决 了 问题 ，Agent 必须 对 适当 解 的 构成 做 一 个 定义 ， 例 如 ， 是 否 它 必须 
最 优 ， 或 近似 最 优 ， 或 几乎 总 是 最 优 ， 或 者 一 个 可 满足 解 是 否 适当 。 

。 在 选择 表示 法 时 ， 应 该 用 那 种 尽 可 能 接近 问题 的 表示 法 ， 这 样 就 可 以 很 容易 地 确定 所 表示 的 内 
容 ， 检 查 它 的 正确 性 并 能 够 维护 。 通 常用 户 都 会 想 要 一 个 解释 ,为 什么 他 们 应 该 相信 管 案 。 
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Baker-Ward[1987] 对 认 知 科学 做 了 概述 ,. 阐述 了 人 工 智 能 以 及 其 他 一 些 学 科 在 这 个 领域 中 扮演 的 角色 。 

购物 Agent 能 够 变 得 非常 复杂 。Sandholm[2007] 描 述 了 Agent 如 何 用 复杂 偏好 采购 多 种 产品 。 

对 于 本 书 来 说 ， 很 多 人 工 智能 课本 很 有 价值 ， 可 以 作为 参考 书目 成 为 本 书 的 补充 ， 为 人 工 智 能 提供 
了 不 同 的 视角 。 尤 其 是 Russell 和 Norvig[2010] 给 出 了 一 个 更 为 广泛 的 人 工 智 能 概述 ， 并 为 本 书 中 的 很 多 
主题 提供 了 补充 资料 ， 他 们 提供 了 科技 文献 的 一 个 优秀 评述 ， 对 此 本 书 不 打算 重复 。 

人 工 智能 百科 全 书 [Shapiro，1992] 是 由 本 领域 的 领军 人 物 编写 的 关于 人 工 智能 的 百科 词典 ， 为 一 些 


经 典 主题 提供 了 背景 ， 其 中 也 收藏 了 大 量 经 典 研究 论文 。 本 书 读者 最 感 兴趣 的 一 般 馆 藏 是 Webber 和 
Nilsson[1981]4j Brachman 和 Levesque[1985]， 更 多 专业 馆藏 会 在 相应 的 章节 中 给 出 。 

国际 人 工 智能 促进 协会 (AAAI,， 其 前 身 是 美国 人 工 智能 协会 ) 通 过 他 们 的 AI 主题 网 站 (http:// 
www. aaai. org/AITopics/html/welcome. html) 提 供 了 很 多 基础 资料 与 新 闻 。 由 AAAI 出 版 的 《AI RRA 
很 多 优秀 的 概述 性 文章 以 及 特定 应 用 领域 的 描述 。IEEE 智能 系统 期 刊 (IEEE Intelligent Systems) tH H Ht 
了 很 多 关于 人 工 智能 研究 方面 的 可 获取 的 文章 。 

有 很 多 学 术 期 刊 提供 了 更 深入 的 研究 ， 还 有 一 些 能 够 提供 最 新 研究 的 会 议 。 这 些 期 刊 包括 《人 工 智 
RE) Artificial Intelligence)、《 人 工 智 能 研究 》(Journal of Artificial Intelligence Research), {IEEE 模式 分 析 
与 机 器 智 能 会 刊 )YCIEEE Transactions on Pattern Analysis and Machine Intelligence) 和 《计算 智能 》(Compu- 
tational Intelligence) ， 还 有 一 些 专业 期 刊 ， 如 《神经 计算 》(Neural Computation) 、《 计 算 语言 学 }(Computa- 
tional Linguistics) 、《 机 器 学 习 》(Machine Learning)、《 自 动 推理 》(Journal of Automated Reasoning). «if 
似 推理 》(Journal of Approximate Reasoning), (IEEE 机 器 人 与 自动 化 会 刊 XIEEE Transactions on Robot- 
ics and Automation) 和 《逻辑 编程 的 理论 与 实践 (Theory and Practice of Logic Programming) 。 大 多 数 前 沿 
研究 首先 出 现在 会 议 上 。 一 般 人 最 感 兴趣 的 是 两 年 一 度 的 人 工 智能 国际 联合 大 会 (JCAI) 、AAAI 年 会 、 
欧洲 人 工 智 能 会 议 (ECAI) 、 泛 太平 洋人 工 智 能 国际 会 议 (PRICAI) 、 各 种 各 样 的 国家 级 会 议 ， 以 及 很 多 
专业 会 议 及 研讨 会 。 


1. 10 “习题 


1.1 为 下 面 每 一 项 给 出 5 TRA: 
(a) 一 条 狗 比 一 只 蠕虫 更 为 智能 。 
b) 一 个 人 比 一 条 狗 更 智能 。 
(c) 一 个 组 织 比 单个 的 人 更 智能 。 
基于 上 述 讨 论 ， 给 出 “更 智能 ”的 含义 。 
1.2 尽 可 能 多 地 举 出 一 些 研 究 菜 种 智能 行为 的 学 科 。 找 出 研究 的 是 智能 行为 的 哪 一 方面 ， 用 什么 工具 来 
研究 的 。 尽 可 能 广泛 地 去 理解 有 关 智 能 行为 的 定义 。 
1.3 说 出 AI 的 两 种 应 用 (不 是 应 用 类 别 ， 是 具体 的 应 用 )， 每 个 应 用 最 多 用 一 页 文字 来 描述 。 你 可 以 从 
以 下 几 个 问题 考虑 
(a) 应 用 具体 是 做 什么 的 (如 控制 一 台 航 天 器 ， 诊 断 一 台 复 印 机 ， 为 计算 机 用 户 提供 智能 帮助 )? 
Cb) 使 用 了 什么 人 工 智 能 技术 (如 基于 模型 的 诊断 ， 信 和 念 网 络 , BLAS, BRABR, ARB 
Æ)? 
(c) 它 的 表现 如 何 ? (如 根据 作者 还 是 独立 的 评论 者 ? 它 跟 人 类 相 比 怎么 样 ? 作者 怎么 知道 它 的 表 
现 怎么 样 ?) 
(d) 它 是 个 实验 系统 还 是 装备 系统 ?《〈 它 有 多 少 用 户 ? 这 些 用 户 需 要 什么 样 的 专业 知识 ?) 
Ce) 它 为 什么 是 智能 的 ? 什么 方面 使 它 成 为 了 一 个 智能 系统 ? 
D [可 选 ] 使 用 什么 编程 语言 及 环境 完成 的 ? 使 用 哪 种 用 户 界面 ? 
(g) 参考 文献 : 你 从 哪里 得 到 关于 这 个 应 用 的 信息 ? 其 他 人 应 该 到 什么 样 的 书 中 、 文 章 中 或 网 站 上 
去 了 解 这 个 应 用 ? 
1.4 选择 本 书 中 没有 涉及 的 4 对 维度 。 对 于 每 一 对 ， 试 给 出 一 个 维度 交互 的 常识 性 例子 。 
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所 谓 分 层 或 分 层 系 统 ， 是 指 一 个 系统 由 多 个 相互 关联 的 子 系统 组 成 ， 而 每 个 子 系统 又 
可 再 次 分 层 直至 到 达 最 底层 基本 子 系 统 为 止 。 自 然 界 的 大 部 分 系统 中 ， 何 时 停止 分 层 及 什 
么 是 基本 元 素 的 随意 性 极 大 。 物 理学 中 会 经 常 使 用 基本 粒子 的 概念 ， 但 是 粒子 早已 证 实 不 
是 物质 的 最 底层 基本 元 素 。 

我 们 从 实验 观察 到 自然 中 的 大 部 分 复杂 系统 都 展示 出 分 层 结 构 。 从 理论 上 讲 ， 我 们 希 
望 世 界 上 的 复杂 系统 都 具备 分 层 结构 ， 其 复杂 系统 可 从 简单 系统 演变 而 来 。 
Herbert A. Simon[ 1996] 





本 章 主要 讨论 智能 Agent 在 实时 环境 中 如 何 感 知 、 推 理 和 动作 。 实 际 上 ， 这 涉及 
Agent 的 内 部 结构 。 正 如 上 面 西蒙 所 指出 的 ， 层 次 分 解 是 复杂 系统 (如 智能 Agent) 设 计 中 
的 重要 部 分 。 因 此 本 章 主 要 描述 了 用 层次 分 解 方式 设计 智能 Agent 的 方法 、 构 建 智能 
Agent 的 方法 以 及 构建 “智能 ”所 需 的 知识 。 


2.1 Agent 


Agent 是 指 在 具体 环境 中 具有 动作 能 力 的 对 象 ， 如 一 个 人 、 一 个 机 器 人 、 一 条 狗 、 一 
只 小 虫子 、 一 阵风 、 重 力 、 一 者 灯 或 者 一 个 能 购物 和 售 货 的 计算 机 程序 。 

有 意图 的 Agent 是 具有 偏好 的 ， 它 会 偏爱 于 某 些 环境 状态 ， 并 将 采取 行动 来 达到 它们 
最 偏好 的 状态 。 无 意图 的 Agent 则 会 聚集 在 一 起 并 被 称 为 自然 。 建 模 时 需 设 定 一 个 Agent 
是 否 为 有 意图 Agent， 此 建 模 假定 是 否 合适 要 根据 环境 来 定 ， 如 在 一 些 情境 中 ， 需 要 将 某 
条 狗 定 义 为 有 意图 的 ， 而 有 时 候 则 不 需要 。 

如 果 一 个 Agent 不 具有 偏好 ， 由 定义 可 知 它 不 会 关心 其 所 处 的 环境 状况 ， 因 此 也 不 会 
关心 自己 做 什么 。 设 计 此 类 Agent 的 唯一 目的 是 逐步 培养 其 偏好 ， 使 其 更 偏爱 某 种 环境 状 
态 并 尽力 实现 之 。Agent 并 非 必须 知道 自己 的 偏好 ， 如 一 个 恒温 器 ， 它 只 需 感知 环境 ， 并 
控制 加 热 器 开 和 关 即 可 。 它 散人 了 偏好 ， 即 让 房间 中 的 人 员 处 在 一 个 合适 的 温度 中 ， 尽 管 
它 并 不 知道 自己 具有 此 偏好 。Agent 的 偏好 一 般 是 Agent 设计 者 的 偏好 ， 但 是 有 时 在 
Agent 运 行 中 也 可 赋予 目标 和 偏好 。 

Agent 需要 一 个 “主体 ”来 与 环境 进行 交互 。 一 个 嵌入 式 的 Agent 有 一 个 物理 的 主体 。 
机 器 人 就 是 一 个 人 造 的 具有 目的 性 的 圣人 式 Agent。 有 些 Agent 则 仅 在 信息 空间 存在 ， 也 
被 称 为 机 器 人 ， 这 里 我 们 说 的 Agent 指 的 便 是 此 类 。 

本 章 讨论 了 如 何 构 建 有 意图 的 Agent， 我 们 用 机 器 人 作为 主要 的 实例 ， 因 为 机 器 人 学 
科 中 已 有 相当 多 的 研究 ， 且 许多 术语 来 自 于 机 器 人 学 科 。 当 然 ， 此 讨论 适用 于 所 有 Agent。 

Agent 通过 传感器 来 接收 信息 。 一 个 Agent 的 动作 取决 于 通过 传感器 获取 的 信息 。 这 
些 传感器 有 可 能 反映 环境 的 真实 状态 。 传 感 器 可 能 是 有 噪声 的 、 不 可 靠 的 、 坏 掉 的 ， 甚 至 
有 时 传感器 是 可 靠 的， 但 是 它 传 回 的 关于 环境 的 信息 却 是 模棱两可 的 ， 而 Agent 却 必须 依 
靠 其 获取 的 信息 来 行动 。 这 些 信息 经 常 很 弱 ， 例 如 ， 传 感 器 s 看 上 去 会 生成 数值 v。 
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Agent 通过 它们 的 执行 器 (也 叫 effectors) 来 动作 。 执 行 器 同样 可 能 是 有 噪声 的 、 不 可 
靠 的 、 行 动 缓慢 的 或 者 坏 掉 的 。Agent 所 控制 的 是 其 发 送 给 执行 器 的 信息 (命令 )。Agent 
经 常会 采取 行动 去 寻找 更 多 的 环境 信息 ， 如 打开 橱柜 门 查看 物件 或 者 对 学 生 进 行 测试 来 测 
定 他 们 的 知识 。 


2.2 Agent 系统 


图 2-1 展示 了 Agent 与 环境 的 一 般 交 互 过程 ， 该 图 所 示 
整体 即 是 我 们 所 说 的 Agent 系统 。 

一 个 Agent 系统 是 由 Agent 和 其 所 在 环境 构成 。Agent 
接收 环境 中 的 刺激 ， 然 后 做 出 相应 动作 。 

一 个 Agent 由 主体 (body) 和 控制 器 (controller) 两 部 分 
组 成 。 控 制 器 从 主体 处 接收 感知 ， 然 后 将 命令 送 至 主体 处 。 图 2-1 一 个 Agent 系统 及 

_ 主体 包括 传感器 和 执行 器 ， 传 感 器 将 外 部 刺激 转化 为 感 其 构成 部 分 
知 ， 执 行 器 能 将 命令 转换 成 动作 。 

刺激 包括 光 、 声 音 、 键 盘 上 输入 的 单词 、 鼠 标 移动 或 者 物理 冲击 ， 也 包括 从 网 页 或 者 
数据 库 中 获取 的 信息 。 

常见 的 传感器 包括 触摸 传感器 、 相 机 、 红 外 传感器 、 声 呐 、 麦 克 风 、 键 盘 、 鼠 标 或 者 
通过 网 页 来 抽取 信息 的 XML 阅读 器 。 作 为 原型 传感器 ， 相 机 感知 进入 它 的 光束 ， 将 其 转 
换 成 亮度 数值 的 二 维 数组 ， 称 为 像素 。 有 时 会 使 用 多 维 像素 数组 来 表示 不 同 的 颜色 或 者 满 
足 多 镜头 相机 的 需求 。 这 些 像素 数组 可 被 控制 器 感知 。 而 更 多 的 时 候 ， 感 知 对 象 通常 有 着 
更 高 层 的 特征 ， 如 线 、 边 或 深层 次 的 信息 。 通 常 来 说 ， 接 收 的 都 是 特定 信息 ， 如 明亮 的 橙 
色 圆 点 的 位 置 ， 学 生 关 注 的 演出 部 分 或 者 人 们 打出 的 手势 信息 。 

动作 一 般 包 括 转向 、 加 速 、 移 动 关 节 、 讲 话 、 展 示 信 息 或 者 向 某 一 网 址 发 送 邮 件 的 命 
令 。 命 令 又 包括 低级 命令 (如 将 发 动机 的 电压 设 定 为 某 个 数值 ) 和 高 级 命令 (如 令 一 个 机 器 
人 进行 某 些 运动 ， 例 如 "停止 ">,“ 以 1m/s 的 速度 向 正 东 方向 运动 ”或 者 “到 103 房间 去 ”)。 
执行 器 同 传感器 类 似 ， 都 包含 噪声 。 例 如 ， 停 止 是 需要 时 间 的 ; 机 器 人 在 物理 规则 下 运 
动 ， 所 以 具备 动量 ， 且 信息 传递 需要 时 间 。 机 器 人 也 许 最 终 只 是 以 接近 lm/s 的 速度 运动 ， 
接近 正 东方 向 ， 且 速度 和 方向 都 是 不 断 波动 的 ， 甚 至 运动 到 某 一 指定 房间 的 行为 可 能 会 由 
于 各 种 原因 而 失败 。 l 

控制 器 是 Agent 的 大 脑 ， 本 章 的 剩余 部 分 将 主要 讨论 如 何 构建 一 个 控制 器 。 


Agent 的 功能 


Agent 应 构建 为 实时 性 的 : 应 能 即时 接收 传感器 信息 ， 并 即时 做 出 反应 。 特 定时 刻 的 
Agent 动作 是 其 输入 的 函数 。 我 们 首先 考虑 时 间 的 概念 。 

设 T 为 时 间 点 集合 ， 假 定 人 工 有 序 ， 且 任意 两 个 时 间 点 的 时 序 距离 均 可 测定 。 大 体 上 ， 
我 们 设 定 工 可 以 映射 到 实 线 上 的 一 些 子 集 。 

车 任 意 两 个 时 间 点 间 仅 存在 有 限 个 时 间 点 ， 则 称 工 是 离散 的 ， 如 每 一 天 或 1/100 秒 有 
一 个 时 间 点 ， 或 者 有 趣事 件 发 生 的 时 刻 也 可 以 是 时 间 点 。 但 如 果 工 中 任意 两 个 时 间 点 间 都 
存在 另 一 个 时 间 点 ， 则 认为 工 是 稠密 的 ， 这 表明 工 中 的 任意 两 个 时 间 点 间 存 在 无 限 多 个 
时 间 点 。 离 散 时 间 存 在 如 下 特征 : 除了 最 后 时 间 点 ， 其 他 任何 时 间 点 均 存在 下 一 时 间 点 。 
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面 稠密 时 间 则 无 “下 一 时 间 点 ”。 我 们 将 时 间 初 始 化 为 离散 的 ， 且 没有 尽头 。 因 此 每 个 时 间 
点 都 存在 下 一 时 间 点 。 我 们 令 ti 十 1 为 时 间 点 的 下 一 时 间 点 ， 但 这 并 不 代表 时 间 点 之 间 是 
等 间隔 的 。 

假定 工 有 初始 时 间 点 ， 我 们 这 里 称 其 为 0。 

假定 也 为 所 有 可 能 感知 对 象 的 集合 。 一 个 感知 轨迹 或 者 一 个 感知 流 则 为 一 个 从 工 到 
P 的 函数 ， 它 描述 了 每 一 时 间 点 所 观察 到 的 事物 。 

假定 C 是 所 有 命令 的 集合 。 一 个 命令 
轨迹 为 从 工 到 C 的 函数 ， 其 代表 在 每 个 时 
间 点 的 命令 。 

【 例 2-1] 我 们 来 考虑 一 个 家 居 交 易 
Agent， 它 监控 着 多 种 家 居 用 品 价格 (如 它 
监视 着 某 些 特定 交易 ， 并 记录 卫生 纸 的 涨 
价 情况 ) 及 家 中 相应 存量 。 它 必须 决定 是 
否 购 进 某 物 及 在 何 种 价格 时 购 进 。 感 知 对 
象 为 当前 商品 价格 及 家 中 存量 。 命 令 为 
Agent 决定 购买 的 各 类 商品 的 数量 ( 若 不 购 
进 则 数目 为 0) 。 感 知 轨 迹 描述 了 每 个 时 间 
点 (如 每 天 ) 的 商品 价格 和 库存 数量 ， 如 
图 2-2 所 示 。 命 令 轨 迹 描述 每 个 时 间 点 
Agent 购 进 的 商品 数量 ， 如 图 2-3 所 示 。 

实际 购 入 动作 依赖 于 命令 ， 但 有 可 能 
有 所 不 同 。 如 Agent 发 出 一 条 以 某 一 特定 
价格 购 入 12 卷 (1 打 ) 卫 生 纸 的 命令 ， 但 并 
不 意味 着 Agent 实际 购 入 了 12 卷 卫生 纸 ， 
因为 可 能 由 于 网 络 通 信 问 题 ， 仓 库 中 的 卫 
生 纸 已 卖 完 ， 或 者 在 决定 买 和 实际 买 之 间 
时 价格 已 经 发 生变 动 。 P 
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一 个 Agent 的 感知 轨迹 是 控制 器 在 过 ol 
去 、 现 在 和 将 来 接收 到 的 所 有 感知 信息 的 9 l 
序列 。 命 令 轨迹 则 是 控制 器 在 过 去 、 现 在 
和 将 来 发 出 的 所 有 命令 信息 的 序列 。 命 令 
可 以 是 历史 感知 的 函数 。 这 就 产生 了 转换 的 概念 ， 从 感知 轨迹 映射 到 命令 轨迹 的 函数 。 

因为 所 有 的 Agent 都 处 于 时 间 流 中 ， 所 以 Agent 不 能 真正 地 观察 到 全 部 感知 序列 ;在 
任意 时 刻 ， 它 只 能 观察 到 截至 现在 的 感知 轨迹 。 在 i(iET) 时 刻 只 能 观察 到 z 时 刻 及 其 之 
前 的 信息 流 。 其 命令 只 能 根据 其 经 验 来 决定 。 

转换 过 程 是 有 因果 联系 的 ， 如 果 对 于 所 有 时 刻 上 ， 在 上 时 间 的 命令 都 仅 由 上 和 其 之 前 的 
感知 信息 决定 。 因 果 限 制 是 必需 的 ， 因 为 Agent 处 于 时 间 流 中 ， 所 以 上 时 刻 的 命令 不 可 能 
依靠 上 之 后 的 感知 信息 。 

控制 器 完成 因果 转换 的 具体 实现 。 

Agent 在 时 间 上 的 历史 包括 其 在 上 时 刻 和 之 前 的 感知 流 和 在 t 时 刻 和 之 前 的 命令 流 。 

因此 ， 一 个 因果 转换 可 看 做 是 从 Agent 在 t 时 刻 的 历史 到 其 在 tz 时 刻 发 出 的 命令 的 函 
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图 2-3 例 2-1 的 命令 轨迹 
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数 。 这 可 被 认为 是 Agent 的 最 规范 描述 。 

【 例 2-2〗 继续 例 2-1 的 情况 ， 一 个 因果 转换 可 认为 ， 对 于 任意 时 刻 ，Agent FEW 
买 多 少 日 用 品 取 决 于 历史 价格 、 历 史 库 存量 (包括 时 下 价格 和 现 有 库存 ) 及 过 往 购 买 
历史 。 

因果 转换 的 示例 如 下 : 当 库 存量 低 于 5 打 且 价格 低 于 过 去 20 天 的 平均 价格 的 90% 时 
则 购买 4 打 ; 车 库存 量 低 于 1 打 时 购 进 1 打 ; 其 他 情况 下 不 购 进 。 < 

尽管 因果 转换 是 用 户 历史 的 函数 ， 但 其 不 能 直接 实现 ， 因 为 Agent 不 能 直接 获得 它们 
的 全 部 历史 信息 ， 它 只 能 获得 当前 的 感知 信息 和 它 仍 能 记 住 的 信息 。 

— Agent 在 时 间 i 时 的 信念 状态 是 其 所 能 记 住 的 所 有 以 前 时 间 的 信息 的 总 和 。 
Agent 只 能 获取 其 存在 信念 状态 中 的 历史 。 因 此 信念 状态 蕴含 了 其 现在 和 将 来 命令 所 能 用 
到 的 所 有 历史 信息 。 在 任何 时 间 ，Agent 都 能 访问 其 信念 状态 和 感知 信息 。 | 

信念 状态 可 以 包含 任何 信息 ， 仅 受制 于 其 存储 器 大 小 和 处 理 能 力 限 制 。 这 是 信念 的 一 
个 非常 普通 的 定义 ; 有 时 我 们 会 使 用 信念 的 一 个 更 特别 的 定义 ， 如 Agent 的 信念 是 关于 世 
界 上 哪些 为 真 ， 或 是 关于 环境 的 动态 改变 ,或 是 关于 其 在 未 来 会 做 什么 。 

一 些 信念 状态 的 实例 如 下 所 示 : 

。 有 固定 顺序 指令 队列 的 Agent 的 信念 状态 可 能 是 一 个 程序 计数 器 ， 记 录 着 该 序列 

的 当前 位 置 。 

。 信念 状态 可 能 包含 有 用 的 特定 事实 ， 例 如 ， 传 送 机 器 人 在 何 处 放下 包 圳 去 找 钥 匙 ， 
或 者 它 找 钥匙 时 已 经 去 过 的 地 方 ， 记 住 任 何 当 前 无 法 立即 观察 却 相 对 稳定 的 信息 
对 Agent 是 有 用 的 。 | 

。 信念 状态 可 以 编码 成 一 个 模型 或 者 整个 世界 状态 的 部 分 模型 。Agent 可 以 保留 其 
对 于 当前 记 界 状态 的 最 佳 猪 测 ， 也 可 以 是 可 能 世界 状态 的 一 个 概率 分 布 ， 详 情 内 
容 见 5. 6 节 和 第 6 章 。 

。 信念 状态 可 以 是 世界 的 动态 表示 、 感 知 的 意义 ，Agent 可 以 使 用 其 感知 来 判断 世 
界 中 什么 是 正确 的 。 

。 信念 状态 可 以 编码 为 Agent 的 愿望 、 它 需 实现 的 目标 、 它 关于 世界 的 信念 、 它 的 
意图 或 者 为 了 实现 目标 而 准备 实施 的 步骤 。 当 Agent 行动 和 观察 世界 时 ， 这 些 能 
被 维持 ， 例 如 ， 移 除 已 经 达成 的 目标 或 当 发 现 更 适合 的 步骤 时 改变 意图 。 

控制 器 必须 保存 Agent 的 信念 状态 并 决定 每 个 时 刻 发 出 何 种 命令 。 当 它 做 这 些 时 ， 它 
应 该 获得 的 信息 需 包括 自身 信念 状态 和 当前 感知 。 

离散 时 间 下 的 信念 状态 转换 函数 可 表示 为 

remember:SX PS 
其 中 ，S 是 信念 状态 集 ，P 是 可 能 认 知 的 集合 ; sr =remember(s,, Pd) RRR sa BE 
信念 状态 * 之 后 观察 到 p, 得 出 的 信念 状态 。 

指令 函数 可 表示 为 

do:SX P+C 
其 中 ，S 是 信念 状态 集 ，P 是 可 能 认 知 的 集合 ，C 是 可 能 指令 的 集合 ; c=dols, PORER 
当前 的 信念 状态 为 % ， 观 察 到 p, 时 控制 器 需要 发 出 的 指令 c, 。 

信念 状态 转换 函数 和 指令 函数 一 起 描述 了 Agent 的 因果 转换 过 程 。 可 以 发 现 ， 因 果 转 
换 是 Agent HEM MM, Agent 不 必 访 问 历史 ,但 指令 函数 是 Agent (ARAM Al K 
数 ， 这 两 个 是 Agent 必须 要 访问 的 。 
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【 例 2-3) 为 了 实现 例 2-2 中 的 因果 转换 ， 控制 器 必须 跟踪 过 去 20 天 内 的 价格 。 通 过 
使 用 均值 (ave) 的 跟踪 数值 ， 可 以 更 新 均值 

ave :—ave+ (new—old)/20 
EP, new 是 最 新 时 刻 的 价格 ，ota 指 记 住 的 最 早 时 刻 的 价格 ， 它 在 使 用 后 立即 会 被 丢弃 。 
其 中 最 初 20 天 的 数据 将 会 做 一 些 特殊 处 理 。 

为 了 使 控制 器 更 加 简单 ， 其 不 需 记 忆 过 去 20 天 的 历史 来 获取 平均 值 ， 而 改 为 仅 存 储 
平均 值 ， 并 使 用 平均 值 来 替代 最 早 价格 。 信 和 念 状态 便 仅 包含 一 个 数据 (ave)。 更 新 平均 值 
的 状态 转换 函数 为 

ave :=avet (new—ave)/20 

这 个 控制 器 很 容易 实现 ， 对 于 在 过 去 20 个 时 间 单 位 之 前 发 生 的 变化 不 敏感 。 这 种 保 
留 平 均 估 计 值 的 方法 是 强化 学 习 中 的 时 间 差 分 法 的 基础 。 < 

如 果 仅 存在 有 限 的 可 能 信念 状态 ,控制 器 可 被 称 为 有 限 状态 控制 器 或 者 有 限 状 态 机 。 
因素 化 表达 是 指 信念 状态 、 感 知 和 命令 均 由 特征 来 定义 。 如 果 存 在 有 限 特征 ， 且 每 个 特征 
仅 存在 有 限 种 可 能 的 取 值 ， 那 控制 器 就 是 一 个 因素 化 有 限 状 态 机 。 更 全 面 的 控制 器 可 以 采 
用 无 限 数量 的 特征 或 特征 取 值 来 构建 。 一 个 有 可 数 状 态 的 控制 器 可 以 计算 任何 图 灵机 可 计 
算 的 问题 。 


2.3 分 层 控制 


在 图 2-1 中 讲述 的 一 种 构建 Agent 的 方法 是 将 主体 分 为 两 部 分 : 传感器 和 一 个 复杂 的 
感知 系统 ， 感 知 系统 将 对 世界 的 描述 输入 给 推理 引擎 来 实现 控制 器 ， 然 后 能 够 生成 传 给 执 
行 器 的 命令 。 但 这 对 智能 系统 而 言 是 一 
个 很 差 的 结构 ， 因 为 它 太 慢 了 ， 使 得 其 
很 难 缓解 以 下 两 个 矛盾 : 复杂 问题 的 组 
慢 推 理 和 Agent 所 需 的 高 级 目标 的 快速 
反应 ， 例 如 ， 躲 避 障 碍 。 它 也 不 清楚 ， 
在 其 可 操纵 范围 之 外 存在 一 个 独立 的 世 
界 ( 见 习题 2. 1) 。 

另 一 种 可 行 结 构 是 在 图 2-4 中 描述 
的 控制 器 的 分 层 。 每 一 层 都 将 其 下 层 看 
做 一 个 可 从 中 获取 感知 及 送出 命令 的 虚 
拟 主 体 。 越 低层 ， 反 应 速度 越 快 ， 用 于 
那些 需要 快速 反应 的 情况 ， 且 能 将 对 环 
境 更 简单 直 白 的 感知 传 给 高 层 ， 隐 藏 不 





重要 的 信息 。 图 2-4 “一 个 理想 的 分 层 Agent 系统 结构 。 未 标注 的 
总 的 来 说 ,不 同时 间 的 状态 之 间 ， HEERE, KARREAN. BAMIR 
会 有 大 量 的 特征 在 层 与 层 之 间 传 递 。 一 时 刻 的 输出 作为 下 一 时 刻 的 输入 


对 于 每 个 时 刻 的 每 一 层 存 在 如 下 三 类 输入 : 

。 来 自 于 信念 状态 的 特征 ， 指 的 这 些 特征 所 记 住 的 或 以 前 的 值 。 
。 从 下 层 结构 得 到 的 感知 的 特征 。 

。 从 上 层 结构 得 到 的 命令 的 特征 。 

对 于 每 个 时 刻 的 每 一 层 存在 如 下 三 类 输出 : 
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。 对 应 上 层 的 更 高 等 级 的 感知 。 

。 对 应 下 层 的 低 等 级 命令 。 

。 信念 状态 特征 的 下 一 个 值 。 

层级 的 实现 方式 决定 了 层 的 输出 是 如 何 由 输入 的 函数 得 出 。 此 函数 的 计算 可 以 涉及 任 
意 计算 ， 但 目的 是 使 每 层 尽 可 能 简单 。 

为 了 实现 控制 器 ， 层 上 的 任何 输入 必须 有 确切 的 赋值 来 源 。 每 个 感知 或 者 命令 输入 应 
该 源 自 与 其 相连 的 其 他 层 的 输出 。 其 他 的 输入 来 源 于 记 住 的 信念 。 而 层 上 的 输出 不 必 有 相 
连 对 象 ， 或 者 可 与 多 个 输入 相连 接 。 

高 级 推理 在 高 层 上 给 出 ， 一 般 是 离散 的 、 定 性 的 ， 而 底层 中 给 出 的 低级 推理 则 是 连续 
和 定量 的 ( 见 下 面 "定性 与 定量 表示 ”的 内 容 )。 一 个 可 推理 产生 离散 和 连续 两 种 值 的 控制 器 
被 称 为 混合 系统 。 


定性 与 定量 表示 


很 多 的 科学 工程 都 会 考虑 使 用 微 积分 作为 主要 工具 来 进行 数值 量化 的 定量 推理 。 而 定 
性 推理 一 般 使 用 逻辑 来 在 给 定 参 数 条 件 下 进行 性 质 上 的 区 分 而 非 数值 上 的 推理 。 

定性 推理 很 重要 ， 原 因 如 下 : 

。 一 个 Agent 可 能 无 法 获知 确切 的 数值 。 例 如 ， 对 于 一 个 倒 效 啡 的 传送 机 器 人 ， 它 
也 许 不 能 计算 出 倒 关 啡 时 咖啡 壶 的 最 佳 倾斜 角度 ， 但 是 一 个 简单 的 控制 规则 就 足 
够 给 杯子 加 入 合适 高 度 的 咖啡 。 

。 无 视 数量 的 推理 有 时 可 能 更 为 合适 。 例 如 ， 你 也 许 希 望 机 器 人 的 策略 是 ， 只 要 能 
在 其 可 正常 操作 的 范围 内 ， 在 工作 时 便 可 无 视 一 些 东 西 ， 如 机 器 人 负载 是 多 少 、 
地 板 有 多 滑 或 者 电池 的 实际 电量 还 有 多 少 。 

。 一 个 Agent 需要 做 定性 推理 来 决定 哪 条 定量 规则 更 为 合适 。 比 如 ， 如 果 传 送 机 玫 
人 正在 向 咖啡 杯 中 加 咖啡 不同 的 定量 规则 适合 于 决定 在 以 下 情况 下 咖啡 往 哪 里 
流 : 当 咖 啡 壶 的 倾斜 角度 不 够 徊 啡 流出 时 ， 当 咖啡 加 入 至 一 个 没 满 的 杯子 时 ， 当 
咖啡 杯 满 并 流出 时 。 

定性 推理 采用 离散 值 ， 其 中 有 多 种 不 同 的 形式 : 

。 标志 是 用 于 在 建 模 个 体 中 进行 定性 区 分 的 数值 。 在 咖啡 这 个 例子 中 ， 有 很 多 重要 
的 定性 区 分 ， 包括 咖啡 杯 是 否 为 空 、 部 分 满 、 满 了 。 这 些 标志 值 对 用 于 预计 如 果 
杯子 足够 倾斜 或 者 咖啡 倒 入 杯 中 时 会 发 生 什 么 来 说 是 必需 的 。 

。 数量 级 顺序 推理 是 种 无 视 轻 微 差别 的 近似 推理 。 举 个 例子 ， 一 个 部 分 满 的 咖啡 杯 
可 能 已 经 满足 传送 要 求 ， 还 有 一 半 满 和 接近 空 。 这 些 模糊 定义 并 没有 一 个 明确 定 
义 的 边界 。 在 杯 中 咖啡 的 实际 量 间 和 定性 描述 存在 某 些 关系 ， 但 是 其 中 并 没有 严 
格 的 数值 因子 。 

。 定性 的 导数 可 以 表明 是 否 一 些 数值 在 增加 、 减 少 或 是 不 变 。 

一 个 灵活 的 Agent 在 其 做 定量 推理 之 前 需要 做 定性 推理 。 有 时 只 需要 定性 推理 。 因 此 

Agent 并 不 总 是 需要 进行 定量 推理 ， 但 是 有 时 定量 和 定性 推理 都 需要 。 


【 例 2-4] 我 们 认定 一 个 传送 机 器 人 能 在 躲避 障碍 物 的 同时 执行 高 级 的 导航 任务 。 假 
定 传送 机 器 人 需要 在 避 开 可 能 的 障碍 物 的 同时 按照 顺序 访问 图 1-7 中 环境 的 一 系列 位 置 。 
假设 传送 机 器 人 有 像 轿 车 一 样 的 轮子 ， 且 每 个 时 刻 可 以 选择 直 走 、 右 拐 或 左 拐 。 但 不 
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能 停止 运动 。 速 度 是 恒定 的 ， 且 唯一 的 指令 是 设 定 转向 角度 。 轮 子 的 转向 是 瞬时 完成 的 ， 
但 是 调整 至 一 个 确定 角度 需要 时 间 。 因 此 机 器 人 只 能 向 正 前 方 运动 或 按照 一 个 固定 的 半径 
绕 圈 。 

机 器 人 有 一 个 位 置 传感器 ， 可 以 给 自己 提供 当前 坐标 和 方向 。 还 有 唯一 一 个 伸 向 正 前 
稍 偏 右 的 触觉 传感器 ， 用 于 探测 是 否 碰 触 到 障碍 。 在 下 面 的 例子 中 ， 传 感 器 指向 前 方 偏 右 
30 度 的 方向 。 机 器 人 不 自 带 地 图 ， 且 环境 
可 以 改变 (如 : 障碍 可 以 移动 ) 。 

对 于 此 类 传送 机 器 人 的 分 层 控制 器 已 在 . 
图 2-5 中 给 出 。 此 机 器 人 有 个 高 级 规划 需要 :| 
执行 。 这 个 规划 是 按 顺序 访问 一 系列 地 点 。 
机 器 人 需要 感知 环境 ， 然 后 在 环境 中 移动 以 
便 执 行规 划 。 底 层 的 具体 细节 并 未 在 图 中 
给 出 。 

最 高 层 ， 被 称 为 后 续 规划 层 ， 在 例 2-6 
中 有 描述 。 那 一 层 获 取 一 个 用 于 执行 的 规 
划 。 此 规划 是 所 需 访问 地 点 的 名 字 的 顺序 排 
列 。 地 点 会 按照 顺序 选中 ， 每 次 选中 的 地 点 
都 会 转换 成 当前 目标 。 此 层 将 决定 目标 的 “一 一 过 
z-y 坐标 位 置 。 这 些 坐 标 是 提供 给 底层 的 目 “… | 
标 位 置 。 高 层 知道 位 置 的 名 字 ， 而 底层 仅 知 ir al 
道 坐 标 。 < 

高 层 中 保留 着 相关 的 信念 状态 ， 包 含 一 
系列 机 器 人 仍 需 访问 的 地 点 的 名 称 和 当前 目 图 2-5 传送 机 器 人 的 分 层 分 解 
标的 坐标 。 它 以 当前 目标 坐标 的 形式 给 中 间 层 传达 命令 。 

中 间 层 ， 也 可 被 称 为 前 往 目 标 并 躲避 障碍 层 ， 它 试图 在 避 开 障碍 的 同时 前 往 当前 目标 
地 点 。 中 间 层 在 例 2-5 中 有 描述 。 目 标的 位 置 ， 即 carget_pos 可 从 上 层 获 得 。 当 中 间 层 到 
达 目 标 位 置 时 ， 它 会 通过 将 arrived 设 为 真 来 告诉 顶层 其 已 完成 目标 。 中 间 层 可 给 一 直 在 
等 待 的 顶层 发 送 中 断 通知 来 达成 此 目的 ， 当 然 顶 层 也 可 能 一 直 在 监听 中 间 层 的 运行 情况 来 
判定 何 时 arrived 状态 为 真 。 当 arrived 变 为 真 时 ， 顶 层 接着 会 将 目标 位 置 改 为 规划 中 下 
个 位 置 的 坐标 点 。 因 为 顶层 改变 了 当前 目标 位 置 ， 中 间 层 必须 使 用 前 一 个 目标 位 置 来 决定 
其 是 否 到 达 目 标 。 因 而 ， 中 间 层 必须 从 顶层 获得 当前 和 之 前 的 目标 坐标 : 之 前 的 坐标 位 置 

[53] 用 于 决定 其 是 否 已 经 到 达 ， 而 现在 的 目标 坐标 是 用 于 决定 将 往 何 处 去 。 

中 间 层 可 以 获知 机 器 人 的 当前 坐标 和 方向 ， 且 能 决定 其 触觉 传感器 是 开启 还 是 关闭 。 
它 使 用 一 个 非常 简单 的 策略 ， 即 直行 向 目标 直至 被 阻碍 ， 此 时 其 会 选择 左 拐 。 

中 间 层 是 建立 在 底层 之 上 的 ， 底 层 会 提供 机 器 人 的 一 些 简单 看 法 。 底 层 可 称 为 行进 机 
器 人 和 报告 障碍 及 位 置 层 。 它 执行 转向 命令 并 报告 机 器 人 的 位 置 、 方 向 及 传感器 的 开关 
状态 。 

在 层 的 内 部 是 特征 ， 而 特征 可 以 为 其 他 特征 值 和 该 层 输入 的 函数 。 每 个 特征 有 一 个 所 
依赖 的 特征 或 输入 的 一 个 弧 形 连接 。 特 征 的 相互 依赖 图 一 定 是 非 循 环 的 。 非 循环 图 使 得 控 
制 器 可 以 通过 运行 一 个 顺序 指定 数值 的 程序 而 实现 。 而 构成 信念 状态 的 特征 可 从 内 存 中 读 

取 和 写 入 。 





行进 机 器 人 ， 
报告 障碍 和 位 置 
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【 例 2-5】 前 往 目标 并 设 避 障 码 的 中 间 层 操纵 机 器 人 来 躲避 障碍 物 。 此 层 的 输入 与 输 
出 在 图 2-6 中 给 出 。 

机 器 人 有 一 个 通过 触摸 来 发 现 障 碍 物 的 触 
觉 传感器 。 由 下 层 提供 的 一 个 比特 数值 可 以 判 
定 触觉 传感器 是 否 碰 触 到 障碍 。 底 层 也 提供 机 
器 人 的 当前 位 置 和 方向 。 机 器 人 所 有 能 做 的 事 
情 只 是 向 左 或 向 右 旋 转 一 个 角度 ， 或 者 直行 。 
而 此 层 的 目的 是 让 机 器 人 向 当 前 目标 位 置 运行 ， 
并 躲 开 路 上 的 障碍 ， 到 达 时 发 出 到 达 报 告 。 

控制 器 的 此 层 不 包含 内 部 信念 状态 ， 因 此 并 
不 存在 信念 状 态 转 换 函 数 。 而 用 于 控制 机 器 人 转 
向 的 命令 函数 则 是 其 输入 和 是 否 已 到 达 的 函数 。 

当 机 器 人 的 当前 位 置 接近 于 上 一 个 目标 位 
置 时 说 明 其 已 到 达 。 因 此 arrived 状态 会 被 指定 
一 个 值 ， 它 是 机 器 人 当前 位 置 、 前 一 个 目标 位 
置 与 一 个 阅 值 常数 共同 决定 的 函数 : 

arrived := distance(previous_target_pos»,robot_pos) < threshold 
Hip, = IRE, distance 是 欧 几 里 得 距离 threshold 是 一 个 合适 的 距离 。 

如 果 触 觉 传感器 开 则 左 转 ， 否 则 朝向 目标 位 置 。 这 可 以 通过 给 steer 指定 合适 的 值 来 
完成 : 


if whisker_sensor = on 





图 2-6 ”传送 机 器 人 的 中 间 层 


then steer := left 
else if traight_ahead (robot _pos ,robot_dir ,current_target_ pos) 
then steer += straight 
else if le ft_of (robot _position ,robot _dir ,current_target_ pos) 
then steer := le ft 
else steer :一 right 
end if 
当 机 器 人 位 于 robot_pos， 面 朝方 向 robot_dir， 且 当前 目标 位 置 current_target_pos 在 
机 器 人 的 前 方位 置 ， 并 满足 一 些 阐 值 限制 时 (对 于 后 面 的 例子 ， 此 立 值 为 正 前 方 偏 移 11°). 
straight_ahead (robot_pos，robot_dir，current_target_pos) 为 真 。 函 数 left_of 用 于 检测 
目标 是 否 在 机 器 人 左 侧 。 
此 层 是 纯 定 量化 的 。 它 以 数字 量化 推理 
而 非 使 用 离散 值 。 < 
【 例 2-6] 最 顶层 ， 也 叫 后 续 规划 层 ， 
会 被 给 予 一 个 规划 ， 该 规划 为 一 个 需要 顺序 
访问 的 地 点 的 名 单 。 其 中 都 是 各 种 目标 ， 这 
些 目标 都 可 被 规划 者 开发 出 来 ， 如 在 第 8 章 
中 开发 出 的 那些 。 当 机 器 人 到 达 前 一 目标 时 
顶层 也 会 被 告知 。 它 必须 将 当前 目标 坐标 输 


出 给 中 间 层 ， 并 记 住 执行 规划 时 其 需要 的 。 
此 层 显 示 在 图 2-7 中 。 图 2-7 传送 机 器 人 控制 器 的 顶层 
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该 层 会 保留 内 部 信念 状态 。 它 会 记 住 当前 目标 位 置 和 其 他 需要 去 访问 的 位 置 。 其 中 to 
_do 特征 的 数值 是 待定 访问 的 地 点 的 一 个 列表 。 而 target_ pos 特征 保留 着 当前 目标 的 
位 置 。 

一 且 机 器 人 到 达 它 的 前 一 目标 位 置 ， 下 一 个 目标 位 置 就 会 变 成 下 一 个 需要 访问 地 点 的 
坐标 。 高 层 规划 会 以 位 置 名 字 的 形式 给 予 机 器 人 ， 因 此 必须 将 其 转换 成 中 间 层 可 以 使 用 的 
坐标 形式 。 下 面 的 编码 说 明了 当 机 器 人 到 达 前 一 目标 位 置 时 目标 位 置 和 如 _ao 列表 如 何 
改变 。 

if arrived and not empty (to_do) 

then 
target_pos' := coordinates (head (to_do)) 
to_do' := tail(to_do) 

end if 
其 中 ，to_do' 是 to_do 特征 的 下 一 个 值 ，iarget_zos 为 下 一 个 目标 位 置 。 在 这 里 head(to_ 
do) 是 to_do 列表 的 第 一 个 元 素 ，tail(to_do) 是 余下 的 to_do WR, 4 to_do 列表 为 空 时 ， 
empty(to_do) HAH. 

在 这 层 中 ， 如 果 to do 列表 变 成 空 ， 机 器 人 就 不 会 改变 其 目标 坐标 ， 之 后 便 会 一 直 在 
原 地 绕 圈 。 见 习题 2. 3 。 

此 层 可 确定 已 命名 地 点 的 坐标 。 通 过 一 个 简单 的 有 位 置 坐标 的 数据 库 就 可 以 实现 。 如 
果 地 点 不 会 移动 且 事 先知 道 ， 使 用 这 样 一 个 数据 库 是 很 明智 的 。 然 而 ， 如 果 目 标 可 以 移 
动 ， 那 么 下 层 必 须 能 告诉 上 层 目 标 当 前 位 置 。 上 层 必 须 请 求 下 层 告 知 给 定 目 标的 坐标 。 见 
习题 2. 8。 

为 了 完成 控制 器 ， 还 必须 初始 化 信念 状态 变量 ， 且 高 级 规划 必须 输入 。 通 过 使 用 规划 
的 尾部 来 初始 化 to_do 列表 和 使 用 第 一 个 位 置 的 坐标 来 初始 化 target_pos， 这 就 可 以 实现 。 

图 2-8 给 出 了 有 一 个 障碍 的 规划 [goto(ol09)，goto(storage)，goto(ol03)] 的 仿真 。 
机 器 人 开始 时 位 于 位 置 (0，5) 且 面 朝 90 度 ( 北 )， 而 在 位 置 (20，20) 与 (35， 一 5) 之 间 有 一 
个 矩形 障碍 。 可 











图 2-8 执行 例 2-6 中 规划 的 机 器 人 仿真 


Agent 对 世界 的 建 模 


信念 状态 的 定义 非常 一 般 ， 且 没有 限制 哪些 是 Agent 应 该 记 住 的 。 一 般 来 说 Agent 保 
留 一 些 世界 的 模型 是 很 有 用 处 的 ， 尽 管 这 些 模型 不 完全 、 不 精确 。 一 个 关于 世界 的 模型 是 
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某 一 时 刻 世 界 状态 和 /或 世界 的 动态 的 一 种 表示 形式 。 

对 于 Agent 来 说 ， 可 以 基于 其 命令 来 保持 和 更 新 世界 的 信念 。 这 种 方法 需要 世界 的 状 
态 模型 和 世界 的 动态 模型 。 给 定 某 个 时 刻 的 状态 和 动态 ， 可 以 预测 下 个 时 刻 的 状态 。 这 一 
过 程 也 被 称 为 推算 。 例 如 ， 机 器 人 可 以 保留 其 对 自己 位 置 的 估计 并 基于 自己 的 动作 来 自我 
更 新 。 若 世界 是 动态 的 或 者 执行 器 有 噪声 (如 半径 不 精确 的 轮子 的 滑动 或 者 加 速 不 连续 )， 
噪声 会 累积 ， 因 此 估算 的 位 置 很 快 就 会 变 得 不 准确 以 至 于 无 用 。 然 而 如 果 模 型 在 某 些 抽象 
层次 上 是 准确 的 ， 则 会 成 为 该 抽象 层次 上 的 合适 模型 。 

男 一 种 方法 是 使 用 感知 来 构建 世界 的 相关 部 分 的 模型 。 感 知 就 是 用 传感器 信息 来 理解 
世界 。 举 个 例子 ， 这 可 能 会 包括 使 用 视觉 来 分 辨 世界 的 特征 和 使 用 这 些 特 征 来 决定 机 器 
人 、 障 碍 物 或 者 需要 捡 起 的 包 袖 的 位 置 。 感 知 一 般 都 是 模糊 的 和 有 了 噪声 的 。 仅 基于 一 张 世 
界 的 图 片 很 难 建立 一 个 三 维 世 界 模型 。 

SETA HEA Agent ERS BTU SARATA BLAA 合 起 来 。 这 可 以 采 
用 多 种 形式 : 
。 如 果 向 前 预测 的 噪声 与 感知 的 噪声 都 有 建 模 ， 那 下 一 个 信念 状态 就 可 以 使 用 贝 叶 
斯 规则 来 估算 。 这 也 被 认为 是 过 滤 。 


。 如 果 使 用 更 复杂 的 传感器 ， 如 视觉 传感器 ， 那 就 可 以 使 用 模型 来 预测 何 处 可 以 发 ， 


现 视觉 特征 ， 接 着 便 可 用 视觉 来 查找 预测 位 置 附近 的 这 些 特征 。 这 会 使 得 视觉 任 

务 变 得 更 加 简单 ， 且 相对 于 前 面 的 仅 依靠 预测 ， 使 用 视觉 可 以 大 幅 减少 位 置 误差 。 

如 果 可 以 采用 如 下 方式 得 到 最 优 动 作 ， 即 通过 首先 发 现 最 佳 的 世界 模型 ， 然 后 再 使 用 

此 模型 来 决定 最 佳 动作 ， 那 么 控制 器 问题 便 是 可 分 割 的 。 不 幸 的 是 ， 大 部 分 控制 问题 是 不 

可 分 割 的 。 这 意味 着 Agent 需要 考虑 多 种 模型 来 决定 接 下 来 做 什么 ， 且 它 可 从 世界 获得 什 

么 信息 取决 于 其 对 该 信息 的 不 同 处 理 。 通 常 来 讲 ， 并 不 存在 与 Agent 行为 完全 独立 的 世界 
最 佳 模 型 。 


2.4 RAWAM Agent 


Agent 控制 器 有 许多 可 使 用 的 方法 : 

。 RA Agent 是 一 个 可 以 在 实际 世界 中 运行 的 Agent， 其 行为 会 在 一 个 实际 领域 内 
执行 ， 感 知 也 来 自 此 领域 。 

。 仿真 Agent 是 一 个 运行 在 模拟 主体 和 环境 中 的 Agent， 即 一 个 可 以 接收 命令 并 返回 
适当 感知 的 程序 ， 经 常用 于 控制 器 实际 实现 之 前 进行 纠 错 。 

。 Agent 系统 模型 是 一 个 包括 控制 器 模型 (这 个 不 能 确定 是 否 为 真实 编程 )、 主 体 模 型 
和 环境 模型 ， 它 可 以 回答 Agent 会 有 何 种 动作 。 这 样 一 个 模型 可 用 于 Agent 创建 
前 证 明 其 性 质 ， 或 者 用 于 回答 那些 实际 Agent 很 难 或 者 无 法 回答 的 假说 问题 。 

这 里 的 每 一 种 都 有 不 同 的 适应 目的 。 

。 知人 模式 适用 于 Agent 必须 实际 使 用 的 情况 。 

。 当 有 很 多 种 设计 选择 需要 实现 ， 且 构建 一 个 实体 又 比较 昂贵 或 者 环境 比较 危险 、 
不 易 见 到 时 ， 仿真 Agent 更 适用 于 测试 和 纠 错 控制 器 。 它 也 允许 我 们 在 现实 中 难 
以 实现 的 、 非 寻常 情况 组 合 下 的 环境 中 测试 Agent。 

仿真 情况 如 何 主要 取决 于 环境 模型 的 好 坏 。 模 型 总 是 会 抽象 世界 的 一 些 特征 。 合 适 的 

抽象 对 于 仿真 来 说 是 很 重要 的 ， 它 能 告诉 我 们 Agent 是 否 能 在 真实 环境 中 工作 。 
。 Agent 的 模型 、 可 能 环境 集 的 模型 和 一 个 特定 的 正确 行为 可 以 允许 我 们 证 明 命题 ， 
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即 关 于 Agent 如 何在 这 样 的 环境 中 工作 。 例 如 ， 我 们 可 能 希望 证 明 使 用 特定 控制 
器 的 机 器 人 总 是 可 以 到 达 目 标 确 定 距 离 范围 内 ， 且 一 定 不 会 迷路 ， 不 会 参 溃 。 当 
然 ， 所 证 实 的 是 否 正确 取决 于 模型 是 否 准确 。 

。 给 定 一 个 Agent 和 环境 的 模型 ，Agent 的 某 些 方面 可 以 先 不 指定 ， 之 后 可 调整 以 
生成 所 希望 的 或 者 最 优 的 行为 。 这 是 优化 与 规划 中 的 常用 方法 。 

。 经 过 强化 学 习 ， 同 现实 世界 交互 时 ，Agent 可 展现 出 更 优 的 性 能 。 


2.5 通过 推理 来 行动 


之 前 的 部 分 假定 Agent 有 着 很 多 在 各 个 时 段 保 留 下 来 的 信念 状态 。 对 于 一 个 智能 
Agent， 信 念 状 态 可 以 非常 复杂 ， 甚 至 可 用 占用 单独 一 层 。 

学 习 和 构建 智能 Agent 的 经 验 表 明智 能 Agent 需要 某 些 信念 状态 的 内 部 表示 方法 。 知 
识 指 的 是 领域 内 的 信息 ， 可 用 于 解决 该 领域 内 的 问题 。 知 识 指 的 是 用 于 特定 情境 、 领 域 的 
一 般 性 知识 。 因 此 关于 特定 状态 更 常 使 用 知识 而 非 信 念 。 基 于 知识 的 系统 是 可 以 使 用 领域 
内 知识 来 动作 或 者 解决 问题 的 系统 。 

哲学 家 们 将 知识 定义 为 正确 的 、 经 过 证 实 的 信念。 人 工 智 能 研究 者 们 则 更 倾向 于 融合 
两 种 概念 。 知 识 更 倾向 于 已 被 证 实 的 一 般 性 信息 。 而 信念 则 是 可 以 被 新 的 信息 修正 的 信 
息 。 一 般 信 念 都 会 伴随 着 可 信和 度 和 如 何 交互 的 模型 。 在 人 工 智能 系统 里 ， 知 识 不 必 是 真 
的 ， 且 只 在 有 用 时 才 去 证 实 。 这 点 区 分 经 常会 变 得 模糊 不 清 ， 因 为 经 常会 有 Agent 的 一 个 
模型 将 某 种 信息 看 做 真 ， 而 另 一 个 模型 则 认为 这 些 信 息 需 要 继续 修正 。 

图 2-9 是 图 1-3 的 精练 表示 ， 针 对 的 是 基于 知识 的 Agent。 知 识 库 是 离线 建立 的 ， 但 
被 用 于 在 线 产 生动 作 。Agent 的 这 种 分 解 与 Agent 的 分 层 观 点 是 正 交 设计 ; 智能 Agent Bi 
需要 分 层 组 织 又 需要 知识 库 。 

在 线 是 指 ， 当 一 个 Agent 动作 时 ， 
它 会 使 用 自己 的 知识 库 、 对 世界 的 观察 、 
目标 和 能 力 来 共同 选择 去 做 什么 及 更 新 
知识 库 。 知 识 库 是 长 期 记忆 ， 这 里 存储 
着 将 来 动作 时 会 用 到 的 知识 。 这 些 知 识 
来 自 于 先 验 知识 以 及 从 数据 和 先前 经 验 
所 学 的 结合 。 信 和 念 状态 则 是 Agent 的 短 
期 记忆 ， 它 保留 着 步 长 之 间 所 需要 的 当 
前 环境 模型 。 一 般 性 知识 与 专门 知识 之 
间 并 不 总 是 存在 明显 的 界限 ; 比如 ， 一 图 2-9 Agent 的 离线 和 在 线 分 解 
个 户外 的 传送 机 器 人 可 以 学 习 特 定 城 市 的 一 般 性 知识 。 从 推理 引擎 到 知识 库 是 存在 反馈 
的 ， 因 为 在 环境 中 观察 和 行动 可 以 提供 更 多 的 可 供 学 习 的 数据 。 

离线 ， 指 的 是 在 Agent 有 所 动作 之 前 ， 它 能 构建 一 个 对 其 在 线 行动 时 有 用 的 知识 库 。 
离线 计算 的 任务 是 使 得 在 线 计算 更 加 有 效 、 高 效 。 知 识 库 是 通过 先 验 知识 和 先前 经 验 得 来 
的 数据 ( 既 可 是 它 自己 的 先前 经 验 ， 也 可 是 别人 给 予 的 数据 ) 来 构建 。 机 器 学 习 领 域 中 的 研 
究 者 们 已 经 考虑 过 有 很 多 数据 和 仅 一 点 先 验 知识 的 情况 。 而 专家 系统 中 研究 了 有 很 多 先 验 
知识 和 很 少 甚至 没有 可 用 于 学 习 的 数据 的 情况 。 然 而 ， 对 于 几乎 所 有 非 平 凡 领 域 ，Agent 
必须 使 用 所 有 可 用 的 信息 ， 因 此 既 需 要 丰富 的 先 验 知识 又 需要 大 量 数据 。 

目标 和 能 力 是 离线 赋予 、 在 线 赋予 还 是 都 赋予 ， 主 要 取决 于 Agent。 举 个 例子 ， 一 个 





第 2 章 Agent A AH PTAR 39 


传送 Agent 可 能 有 保证 实验 室 清洁 并 不 损坏 自己 或 者 其 他 物品 的 一 般 性 目标 ， 但 是 它 也 可 
在 运行 中 获取 其 他 传送 目标 。 如 果 知 识 库 被 调整 为 适合 特定 目标 和 能 力 . 那么 在 线 计算 会 
变 得 更 加 高 效 。 然 而 ， 当 不 能 获知 运行 中 的 全 部 目标 和 能 力 时 ， 这 一 般 来 说 不 大 可 能 。 

图 2-10 更 为 详细 地 显示 了 Agent 与 环境 的 交互 接口 。 





图 2-10 Agent 的 内 部 ， 职 能 说 明 


2.5.1 设计 时 间 与 离线 计算 


在 线 计算 需要 的 知识 库 可 以 在 设计 时 便 初始 化 、 然 后 由 Agent MAP RK. 

本 体 是 用 于 信息 系统 的 符号 含义 的 一 种 描述 。 它 指定 了 建 模 什么 及 系统 中 使 用 的 词 
汇 。 最 简单 的 情况 ， 如果 Agent 正在 使 用 完全 观察 的 明确 的 基于 状态 的 表述 ， 那 么 本 体 就 
表示 环境 和 状态 间 的 映射 方式 。 如 果 没 有 这 个 映射 ，Agent 也 许 知 道 其 在 状态 57， 但 是 如 
果 没 有 本 体 ， 对 于 其 他 Agent 或 者 人 来 说 ,这 个 信息 毫 无 意义 。 在 其 他 情况 下 ， 本 体 同样 
能 定义 特征 或 者 个 体 和 关系 。 它 被 用 于 将 未 加 工 的 感知 转换 为 对 于 Agent 有 意义 的 信息 ， 
或 者 用 于 从 人 类 或 者 其 他 知识 源 处 获得 有 意义 的 输入 。 

本 体 是 由 社区 构建 的 ,一 般 独 立 于 特定 的 知识 库 和 特别 的 应 用 。 正 是 由 于 此 共享 特性 ”[ 61 
才 允 许 使 用 多 种 来 源 ( 视 觉 、 人 类 、 数 据 库 ) 的 数据 进行 有 效 的 沟通 和 内 部 操作 。 个 体 和 关 
系 情况 的 本 体 在 13. 3 节 讨 论 。 

本 体 逻 辑 上 应 早 于 数据 和 先 验 知识 : 我 们 需要 一 个 本 体 来 获取 数据 或 者 知识 。 没 有 本 
体 的 话 ， 数 据 仅 是 比特 串 。 没 有 本 体 ， 人 们 不 知道 应 输入 什么 ; 正 是 本 体 给 数据 赋予 了 含 
义 。 一 般 来 说 本 体会 在 系统 开发 时 逐步 完善 。 

本 体会 指定 一 个 或 多 个 抽象 层 。 如 果 本 体 发 生 改 变 ， 那 数据 必须 改变 。 例 如 ， 机 器 人 
应 该 有 关于 障碍 物 的 本 体 ( 如 任何 实体 对 象 都 是 应 该 避 开 的 障碍 物 )。 如 果 再 被 扩展 到 可 区 
分 的 人 类 、 椅 子 、 桌 子 、 咽 啡 杯 或 者 其 他 类 似 东 西 ， 那么 就 需要 更 多 的 关于 环境 的 不 同 
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数据 。 
知识 库 是 离线 地 通过 结合 专家 知识 和 数据 来 构建 。 其 通常 在 Agent 了 解 将 活动 的 环境 
前 就 已 构建 。 在 线 计 算 的 部 分 通常 包括 保存 并 调整 知识 库 。 
离线 时 ， 涉 及 基于 知识 系统 的 有 三 个 主要 任务 : 
。 软件 工程 师 构 建 推 理 引 擎 和 用 户 接 口 。 他 们 通常 并 不 知道 知识 库 的 内 容 。 在 使 用 
他 们 所 实现 的 系统 方面 ,他 们 并 不 需要 很 专业 ; 然而 ,在 编程 语言 ， 如 Java, 
Lisp、Prolog 的 使 用 方面 ， 而 非 他 们 自己 所 设计 系统 的 知识 表示 语言 方面 ， 他 们 
必须 是 专家 。 
。 领域 专家 是 那些 在 某 一 领域 有 适当 先 验 知识 的 人 。 他 们 了 解 相关 领域 , 但 是 通常 
来 说 他 们 对 于 一 些 可 能 会 遇 到 的 特殊 情况 一 无 所 知 。 例 如 ， 一 个 药学 领域 的 专家 
知道 疾病 、 症 状 及 相应 关联 ,但 是 可 能 却 不 知道 某 个 特定 病人 的 症状 或 者 疾病 。 
一 个 传送 机 器 人 领域 的 专家 也 许 知 道 必须 认识 的 个 体 种 类 、 电 池 仪 表 的 意义 与 各 
种 动作 的 耗费 量 。 领 域 专家 通常 并 不 知道 Agent 会 遭遇 的 环境 的 详细 信息 ， 比 如 ， 
对 于 诊断 助手 来 说 的 病人 的 详细 信息 ， 或 者 机 器 人 所 在 房间 的 详细 信息 。 
领域 专家 通常 并 不 清楚 人 工 智 能 系统 的 内 部 工作 过 程 。 一 般 他 们 仅 有 关于 知 
识 的 语义 观点 且 并 不 关心 推理 引擎 在 使 用 何 种 算法 。 系 统 应 以 领域 的 形式 与 他 们 
进行 交互 ， 而 非 计算 步骤 的 形式 。 例 如 ， 若 一 个 知识 库 采 用 显示 答案 产生 轨迹 的 
方式 ， 然 后 寄 希 望 于 领域 专家 来 修正 此 知识 库 是 不 明智 的 。 因 此 ， 并 不 需要 提供 
给 领域 专家 修正 工具 来 跟踪 程序 的 执行 。 
。 知识 工程 师 在 同 领域 专家 协商 的 基础 上 设计 、 构 建 和 修正 知识 库 。 他 们 了 解 系统 
的 详细 信息 且 通 过 领域 专家 了 解 领域 内 的 详细 信息 。 但 是 他 们 对 于 具体 案例 毫 不 
了 解 。 他 们 应 该 知道 有 用 的 推理 技术 和 完整 系统 的 工作 流程 。 
同样 一 个 人 可 以 完成 多 个 任务 : 一 个 了 解 人 工 智能 的 领域 专家 可 以 作为 知识 工程 师 ; 
一 个 知识 工程 师 可 以 作为 编写 系统 的 人 。 一 个 大 的 系统 可 以 有 许多 不 同 的 软件 工程 师 、 知 
识 工程 师 和 专家 ， 其 中 每 一 个 人 专门 执行 系统 的 一 部 分 。 这 些 人 可 能 甚至 不 知道 他 们 仅 是 
系统 的 一 部 分 ， 他 们 发 布 的 信息 可 被 任何 人 使 用 。 
离线 时 ，Agent 可 以 结合 专家 知识 和 数据 。 在 这 个 阶段 ， 系 统 可 以 被 测试 和 修正 。 
Agent 能 够 计算 那些 非特 殊 指 定 情况 。 例 如 ， 它 能 编译 部 分 知识 库 来 使 得 推理 更 加 高 效 。 


2.5.2 在 线 计算 


在 线 状 态 时 ， 具 体 事例 的 信息 开始 可 用 ， 且 Agent 需要 开始 行动 。 这 些 信息 包括 领域 
的 观察 信息 以 及 可 行动 作 、 偏 好 和 目标 的 信息 。Agent 可 以 从 传感器 、 用 户 和 其 他 信息 源 
处 (如 网 站 ) 获 得 信息 ， 但 是 我 们 假定 它 不 能 从 领域 专家 或 者 知识 工程 师 处 获得 信息 。 

一 般 来 说 Agent 的 离线 计算 时 间 要 远大 于 在 线 计算 时 间 。 然 而 ， 在 线 计 算 时 它 能 更 好 
地 利用 特定 目标 和 特定 的 观察 。 

例如 ， 一 个 医药 诊断 系统 仅 当 在 线 状 态 时 才 有 特定 病人 的 详细 信息 。 离 线 状 态 时 ， 它 
能 获知 疾病 和 症状 相关 性 的 信息 ， 并 能 对 知识 进行 修正 和 完善 。 仅 当 它 在 线 状态 时 ， 才 能 
处 理 特定 病人 的 相关 信息 。 

在 线 主要 包括 以 下 几 个 任务 : 

。 用 户 是 一 个 需要 专业 知识 的 人 或 者 有 个 体 案例 信息 的 人 。 用 户 通常 不 是 知识 库 相 

关 领 域 的 专家 ， 所 以 他 们 一 般 并 不 知道 系统 需要 什么 样 的 信息 。 因 此 不 可 能 奢望 
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他 们 能 自主 地 提供 特定 案例 的 信息 。 这 时 候 就 需要 一 个 简单 自然 的 界面 ， 因 为 用 
户 通常 并 不 知道 系统 的 内 部 结构 。 他 们 一 般 会 根据 系统 给 出 的 建议 做 一 个 相对 全 
面 的 决定 ， 因 此 需要 对 所 给 的 建议 给 出 一 个 合适 的 解释 。 

。 传感器 会 提供 环境 的 信息 。 例 如 ， 温 度 计 是 一 个 可 以 提供 其 所 处 位 置 当 前 温度 的 
传感器 。 传 感 器 也 可 以 更 加 复杂 ， 如 视觉 传感器 。 在 最 底层 ， 视 党 传 感 器 简单 地 
提供 每 秒 30 帧 的 大 小 为 720 * 480 像素 的 矩阵 。 而 在 更 高 层 ， 视 觉 系统 也 许 能 够 
回答 一 些 特定 问题 ， 如 特定 特征 的 位 置 、 某 种 物品 是 否 存 在 或 者 视野 中 是 否 存在 
某 些 特定 的 个 体 。 一 个 麦克 风 的 数组 可 被 用 在 底层 抽象 级 上 ， 用 来 提供 详细 的 震 
动 信息 。 它 同样 可 以 被 用 做 高 层 传感器 的 组 件 来 检测 爆炸 ， 并 预测 爆炸 的 类 型 和 
位 置 。 

传感器 主要 分 为 两 种 。 一 种 是 被 动 传感器 ， 总 是 连续 的 发 送信 息 给 Agent。 
被 动 传感器 包括 温度 计 、 相 机 和 麦克 风 。 设 计 者 可 以 选择 传感器 的 放置 位 置 和 方 
向 ， 但 是 他 们 仅 能 提供 Agent 信息 。 而 男 一 种 主动 传感器 则 恰恰 相反 ， 它 可 被 控 
制 或 者 可 向 其 咨询 信息 。 主 动 传感器 的 例子 有 很 多 ， 如 可 以 回答 关于 病人 的 特定 
信息 的 医用 探 针 ， 或 者 智能 辅导 系统 中 的 一 份 给 学 生 的 测试 。 经 常会 出 现 一 个 传 
感 器 在 底层 抽象 级 上 是 被 动 传 感 器 ， 而 在 高 层 抽象 级 上 被 看 为 主动 传感器 。 例 如 ， 
相机 可 被 询问 房间 内 是 否 存在 特定 人 物 。 为 了 完成 此 任务 ， 它 必须 找 出 房间 内 的 
面孔 并 找 出 每 个 人 的 不 同 特征 。 

。 外 部 知识 源 ， 如 一 个 网 站 或 者 数据 库 ， 一 般 能 够 回答 问题 并 且 在 受 限 领域 提供 答 
R. Agent 可 以 向 一 个 天 气 网 站 询问 某 一 地 点 的 温度 ， 也 能 向 一 个 航空 网 站 询问 
指定 航班 的 到 达 时 间 。 知 识 源 有 不 同 的 协议 和 有 效 的 权衡 机 制 。Agent 与 外 部 资 
源 间 的 接口 被 称 为 封装 ， 封 装 可 以 互相 转换 Agent 使 用 的 表达 信息 与 外 部 知识 源 
准备 去 处 理 的 查询 信息 。 一 般 来 说 封装 的 设计 意义 在 于 一 个 Agent 可 以 向 多 个 知 
识 源 询问 同一 事情 。 例 如 ,一 个 Agent 也 许 希 望 知道 飞机 的 到 达 时 间 ， 可 是 不 同 
的 航线 或 者 飞机 场 需要 不 同 的 协议 接口 进入 以 获得 此 信息 。 当 一 个 网 站 或 者 数据 
库 通用 一 个 共同 的 本 体 时 ， 他 们 就 能 互相 使 用 信息 了 ， 因 为 相同 的 符号 代表 相同 
的 意义 。 相 同 符 号 代表 相同 事情 这 也 叫做 语义 互通 。 当 他 们 使 用 不 同 的 本 体 时 ， 
那么 在 本 体 间 必须 存在 映射 关系 以 便 能 够 实现 互通 。 

而 且 ， 任 务 这 样 便 分 开 了 ， 尽 管 完成 这 些 任务 的 人 群 之 间 可 能 会 重 又 。 例 如 ,领域 专 
家 可 以 作为 一 个 用 户 来 测试 和 修正 系统 ， 每 个 任务 对 他 们 需要 的 工具 来 说 都 有 不 同 的 要 
求 。 那 些 用 于 向 用 户 解 释 系统 如 何 得 出 结果 的 工具 ， 也 可 以 是 领域 专家 用 来 修正 知识 的 
工具 。 


2.6 RENE 


。 一 个 Agent 系统 由 一 个 Agent 和 一 个 环境 组 成 。 

。 Agent 需要 传感器 和 执行 器 来 与 环境 进行 交互 。 

。 一 个 Agent 由 主体 和 相关 控制 器 组 成 。 

。 Agent 是 适应 于 时 间 ， 且 必须 根据 其 以 往 与 环境 的 交互 历史 来 决定 做 什么 。 

一 个 Agent 不 会 直接 访问 其 历史 ， 而 是 它 所 记 住 的 内 容 ( 信 念 状 态 ) 和 它 刚刚 观察 到 的 信息 。 在 每 
一 个 时 刻 ，Agent 对 于 去 做 什么 和 记 下 什么 主要 取决 于 其 信念 状态 和 当前 的 观察 。 

。 复杂 的 Agent 以 可 交互 的 分 层 结构 形式 构建 。 


. 
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， 智能 Agent 是 需要 知识 的 ， 而 知识 在 设计 阶段 、 离 线 阶段 、 在 线 阶段 均 可 获得 。 
2.7 参考 文献 及 进一步 阅读 


Agent 系统 的 模型 是 基于 Zhang、Mackworth[1995] 的 关于 约束 网 络 的 工作 和 Rosenschein、Kaelbling 
[L1995j] 的 工作 ， 分 层 控制 则 是 基于 Albus[1981] 的 工作 和 Brooks[1986]| 等 人 的 关于 包含 结构 的 工作 。 
Abelson、DiSessa[1981] 的 Turtle Geometry 从 建 模 简单 反应 式 Agent 角度 介绍 了 相关 数学 理论 。Luen- 
berger[1979] 则 是 一 篇 值得 一 读 的 关于 Agent 与 环境 交互 的 经 典 理论 的 简介 。Simon[1996] 则 介绍 了 分 层 
控制 的 重要 性 。 

更 多 的 Agent 控制 细节 可 以 参看 Dean 和 Wellman[1991]、Latombe[1991] 和 Agre[1995] 。 

构建 智能 Agent 的 方法 论 在 Haugeland[1985]、Brooks[1991]、KirshL1991b] 和 Mackworth[ 1993] 中 
多 有 介绍 。 

定量 推理 在 Forbus[1996] 和 Kuipers[2001] 中 有 讲述 。Weld 和 de Kleer[1990] 中 有 很 多 关于 定性 推 
理 的 精华 ， 同 样 ，Weld[1992] 也 是 关于 此 问题 的 。 至 于 近期 的 综述 可 查看 Price, Travé-Massuyàs, 
Milne, Ironi, Forbus, Bredeweg, Lee, Struss, Snooke, Lucas, Cavazza 利 Coghill[2006 |, 


2.8 习题 


2.1 2.3 节 提 到 一 个 论点 ， 即 不 可 能 脱离 Agent 的 任务 和 目的 而 独立 地 构建 一 个 世界 表示 。 此 习题 能 使 
你 评估 此 论点 。 
选择 一 个 特定 的 世界 ， 如 当前 你 的 桌面 的 一 部 分 。 
i) 让 某 个 人 列 出 在 此 世界 上 存在 的 所 有 东西 (或 者 自己 完成 )。 
ii) 再 考虑 20 种 没有 列 出 的 ， 且 尽 可 能 相互 完全 不 同 。 例 如， 桌子 最 右边 的 圆珠笔 的 笔头 上 的 小 
球 、 订 书 机 的 弹簧 ， 或 是 桌 上 某 本 书 66 页 的 第 三 个 单词。 
ii) 找 出 一 个 无 法 用 自然 语言 描述 的 东西 。 
iv) 选 定 一 个 任务 ， 如 整理 桌面 ， 并 写 出 所 有 与 此 任务 相关 的 所 有 物体 的 描述 。 
基于 此 习题 ， 讨 论 如 下 几 个 状况 : 
(a) 世界 上 存在 什么 是 由 观察 者 观察 来 决定 的 。 
(b) 我 们 需要 某 种 方法 来 指定 到 每 一 个 个 体 ， 而 非 期 望 每 个 个 体 都 有 独立 的 名 字 。 
Co) 存在 哪些 个 体 是 由 任务 同样 也 是 世界 的 属性 决定 的 。 
CA) 为 了 描述 领域 中 的 菜 个 个 体 ， 你 需要 有 一 个 极 大 的 词典 和 一 个 有 效 的 方法 来 组 合 它们 用 于 描述 
个 体 ， 而 且 这 点 必须 与 任何 特定 的 领域 无 关 。 
2.2 解释 为 何 例 2-5 中 的 中 间 层 必须 有 前 一 目标 位 置 和 当前 目标 位 置 作 为 输入 。 假 定 只 有 其 中 一 个 作为 
输入 ， 哪 一 个 是 必需 的 ? 这 将 会 导致 什么 问题? 
2.3 例 2-6 中 的 目标 位 置 的 定义 意味 着 当 规划 结束 时 ， 机 器 人 将 会 将 其 
最 后 一 个 目标 位 置 作为 其 目标 位 置 ， 然 后 不 断 绕 团 。 改 变 定义 使 得 
机 器 人 可 以 返回 原点 ， 然 后 围绕 原点 绕 圈 。 
2.4 如 例 2-5 中 的 方法 躲避 障碍 物 很 容易 便 会 陷入 困 局 。 
(a) 设置 一 个 障碍 物 和 一 个 目标 以 便于 机 器 人 使 用 例 2-5 中 的 控制 。 <、 加 
器 ， 会 发 现 其 不 能 到 达 ( 会 前 溃 或 者 线圈) 。 
Cb) 即使 没有 障碍 物 ， 机 器 人 也 可 能 无 法 到 达 目 的 地 。 例 如 ， 如 果 
他 在 目标 位 置 附近 ， 它 就 会 不 断 绕 圈 而 无 法 到 达 目 标 地 点 。 设 
计 一 个 可 以 发 现 此 问题 并 能 使 其 到 达 目 标点 的 控制 器 。 
2.5 考虑 图 2-11 中 的 “机 器 人 困境 ”。 
(a) 解释 一 下 为 何 它 会 使 一 个 机 器 人 难以 到 达 目 标点 g。 你 必须 解 
县 机 器 人 现在 会 有 何 种 行为 ， 且 为 何 难以 设计 一 个 更 为 复杂 的 图 211 一 个 机 器 人 困境 
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机 器 人 (如 ， 一 个 使 用 "右手 规则 "的 机 器 人 会 沿 着 墙 走 : 当 其 碰 到 障碍 物 时 其 会 左 转 并 沿 着 墙 
走 ， 而 墙 面 始终 在 其 右 侧 ) 来 工作 。 

(b》 直 观 上 我 们 认为 如 果 想 要 脱离 这 个 迷宫 ， 需 要 当 一 个 机 器 人 撞 到 墙 后 ， 它 会 一 直 绕 着 墙 走 直到 
右 转 次 数 与 左 转 次 数 相同 。 告 诉 我 们 如 何 实现 此 方法 ,解释 信念 状态 、 信 和 念 状 态 转 换 函 数 和 命 
令 函 数 。 

当 用 户 选择 并 移动 当前 目标 位 置 时 ， 此 章 中 的 机 器 人 会 继续 行 至 此 目标 的 原 坐 标 处 ， 而 不 会 再 去 其 

当前 位 置 。 试 着 改变 此 控制 器 使 其 可 以 向 目标 的 当前 位 置 移动 。 

现在 的 控制 器 会 顺序 访问 todo 列表 中 的 地 点 。 

(a) 改 控制 器 为 投机 型 ， 当 它 需 要 选择 下 一 个 位 置 时 ， 它 会 选择 距离 当前 位 置 最 近 的 目的 地 。 当 然 
其 仍 需 访 问 所 有 的 目的 地 。 

Cb) 给 出 一 个 环境 实例 ， 在 此 环境 中 新 控制 器 完成 访问 任务 花费 的 时 间 少 于 使 用 原 控制 器 花费 的 
时 间 。 

Co) 给 出 一 个 环境 实例 ， 在 此 环境 中 使 用 原 控制 器 花费 的 时 间 要 少 于 使 用 修改 后 的 控制 器 所 花费 的 
By fa) 

(d) 改变 控制 器 ， 使 得 Agent 在 行进 的 每 一 步 都 朝向 距 其 当前 位 置 最 近 的 目的 地 。 

Ce) 使 用 (d) 中 描绘 的 控制 器 会 不 会 出 现 陷 人 死 循环 以 致 无 法 到 达 目 的 地 ， 而 使 用 原 榨 制 器 却 可 以 
正常 工作 的 环境 中 ?给 出 一 个 其 会 陷入 原 地 转圈 的 例子 并 解释 为 何其 无 法 找 出 一 个 解决 方法 ， 
或 者 给 出 其 为 何不 会 陷 人 转圈 的 原因 。 

改变 控制 器 使 得 机 器 人 可 以 感知 环境 并 获知 某 位 置 的 坐标 。 这 里 假定 主体 可 以 提供 已 命名 位 置 的 

坐标 。 

假设 你 有 个 新 工作 ， 必 须 为 一 个 机 器 人 构建 一 个 控制 器 。 你 告诉 老板 你 只 需要 实现 命令 函数 和 状态 

转换 画 数 。 他 们 会 对 此 产生 质疑 。 为 何 是 这 些 函 数 ? 只 需要 这 些 函 数 ? 向 其 解释 为 何 一 个 控制 器 仅 

和 需要 一 个 命令 函数 和 一 个 状态 转换 函数 。 请 用 适当 的 言语 ， 要 简洁 .。 
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状态 和 搜索 





你 看 到 过 海岸 上 的 螃蟹 在 寻找 大 西洋 的 过 程 中 一 直 向 后 息 行 ， 最终 消失 吗 ? 人 们 也 是 
—H. L. Mencken (1880—1956) 


前 面 一 章 讨 论 了 Agent 是 如 何 理解 和 动作 的 ， 但 是 没有 讲 到 它们 的 目标 是 如 何 影响 动 
作 的 。 一 个 Agent 可 以 根据 既定 的 目标 集 有 规划 的 去 动作 ， 但 是 如 果 不 能 适应 变化 的 目 
标 ， 这 样 的 Agent 就 是 非 智能 的 。 或 者 ，Agent 能 够 根据 自身 能 力 和 既定 目标 去 推理 ， 从 
而 决定 应 该 做 什么 。 这 一 章 介绍 将 Agent 决定 做 什么 的 问题 描述 为 在 一 个 图 中 搜索 发 现 一 
条 路 径 的 问题 ， 它 还 给 出 了 计算 机 解决 此 类 问题 的 很 多 方法 。 就 像 Mencken 在 上 面 说 的 ， 
尽管 不 都 能 达成 既定 目标 ， 人 们 还 是 想 利用 搜索 的 方法 去 解决 问题 。 


3.1 用 搜索 进行 问题 求解 


在 Agent 推理 要 做 什么 的 最 简单 的 例子 中 ，Agent 有 一 个 基于 状态 的 世界 模型 ， 没 有 
不 确定 性 ， 并 具有 要 完成 的 目标 。 这 个 模型 或 者 是 扁平 的 (不 分 层 的 ) 表 示 ， 或 者 是 单 层 结 
构 。Agent 能 够 通过 对 世界 状态 空间 表示 的 搜索 找到 从 当前 状态 到 目标 状态 的 一 条 路 径 ， 
从 而 决定 如 何 完成 其 目标 。 它 能 在 其 行动 之 前 找到 实现 其 目标 的 一 个 动作 序列 。 

这 个 问题 可 以 抽象 为 一 个 数学 问题 ， 在 一 个 有 向 图 中 找到 从 起 始 节点 到 目标 节点 的 一 
条 路 径 。 其 他 很 多 问题 都 可 以 映射 成 这 类 抽象 ， 所 以 考虑 这 个 层次 上 的 抽象 很 有 意义 。 本 
章 大 部 分 内 容 研究 了 寻找 这 样 路 径 的 各 种 算法 。 

搜索 的 含义 是 指 Agent 内 在 的 计算 。 它 不 同 于 必须 要 有 动作 的 现实 世界 的 搜索 ， 例 
如 ， 寻 找 钥 是 、 举 起 垫子 等 。 它 也 不 同 于 网 络 上 的 信息 检索 。 这 一 章 中 所 研究 的 搜索 是 在 
内 部 描述 中 找到 一 条 到 达 目 标的 路 径 。 

搜索 的 思路 是 明确 的 : Agent 针对 一 个 问题 构造 出 一 个 可 能 的 局 部 解 的 集合 ， 可 以 检 
查 它们 是 否 是 最 终 解 或 者 可 以 导致 最 终 解 。 搜 索 就 是 反复 地 选择 局 部 解 ， 直 到 找到 一 条 通 
往 目标 的 路 径 才 人 停止， 否则， 就 会 在 所 有 可 能 的 方向 增加 一 条 弧 来 扩展 局 部 解 。 

搜索 是 大 部 分 人 工 智能 领域 的 基础 ， 当 Agent 遇 到 一 个 问题 时 ， 它 只 给 定 了 可 以 识别 
解 的 描述 ， 而 不 知道 解决 这 个 问题 的 具体 算法 ， 所 以 它 必须 搜索 问题 的 解 。 在 NP 完全 问 
题 中 ， 我 们 有 有 效 的 方法 来 识别 答案 ， 却 没有 有 效 的 方法 去 找到 答案 。 这 说 明 ， 在 许多 情 
况 下 ， 搜 索 是 解决 问题 的 必要 部 分 。 

人 们 经 常 能 够 通过 直觉 一 步 就 找到 很 难 的 问题 的 解 。 但 是 ， 人 们 不 倾向 于 解决 普遍 问 
题 ， 相 反 ， 他 们 会 处 理 具体 的 问题 ,与 可 能 的 搜索 空间 相 比 ， 他 们 熟悉 这 些 问 题 。 有 些 问 
题 中 不 存在 结构 ， 或 者 其 中 的 结构 与 物理 世界 不 相关 ， 这 样 的 问题 人 们 很 难 解决 。 在 公 雏 
加 密 编 码 中 ， 搜 索 空间 清晰 明了 ， 解 的 验证 方法 也 已 给 出 ， 尽 管 如 此 ， 人 类 仍然 无 法 破 
解 ， 计 算 机 也 不 能 在 现实 的 时 间 框 架 中 破解 ， 这 就 例证 了 搜索 的 困难 性 。 

搜索 的 困难 性 及 人 类 能 够 有 效 解 决 一 些 搜索 问题 的 事实 ， 表 明 计 算 机 Agent 应 当 从 一 些 
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特例 中 拓展 新 知识 来 指引 它们 找到 解 。 超 出 搜索 空间 以 外 的 知识 叫做 启发 性 ( 式 ) 知 识 (hea- 
ristic knowledge) 。 本 章 以 评估 从 一 个 节点 到 一 个 目标 的 花费 的 形式 讲述 一 种 启发 式 知 识 。 


3.2 状态 空间 


智能 行为 的 一 种 一 般 形 式 就 是 状态 空间 (state space) 。 一 个 状态 (Cstate) 包 含 着 所 有 必 
备 的 信息 ， 以 用 来 预测 动作 结果 并 确定 是 否 是 目标 状态 。 状 态 空 间 搜索 假设 如 下 : 

。 Agent 具有 状态 空间 的 完全 知识 ， 并 可 观察 自己 所 处 的 状态 ( 即 完全 可 见 ) 。 

*。 Agent 具有 一 个 动作 集 ， 这 些 动作 有 已 知 的 确定 效果 。 

。 一 些 状 态 是 目标 状态 ，Agent 想 要 到 达 其 中 一 个 目标 状态 ， 并 可 识别 目标 状态 。 

*。 解 (solution) 就 是 一 个 动作 序列 ， 使 得 Agent 从 当前 状态 到 达 目 标 状态 。 

【 例 3-1) 图 3-1 显示 了 机 器 人 投递 域 及 寻找 从 一 个 位 置 到 达 另 一 个 位 置 的 一 条 路 径 
的 任务 。 这 可 以 抽象 为 一 个 状态 空间 的 搜索 问题 模型 ， 其 中 状态 就 是 那些 位 置 。 假 设 
Agent tela ERENER — 个 位 置 到 相 邻 位 置 的 高 级 行为 ， 那 么 在 这 种 层次 的 
抽象 中 ， 行 为 就 是 指 相 邻 位 置 的 明确 的 移动 。 


peat | may | nn [as | | at | aw 


ol31 0129 ol27 0125 ol23 0121 0119 







storage 











ts 0101 0103 105 107 ol09 alll 


~ 


3-1 标明 感 兴趣 位 置 的 投递 机 器 人 域 


例如 ， 机 器 人 在 房间 r103 外 ， 即 图 中 0103 位 置 处， 目标 是 到 达 房 间 r123。 解 就 是 使 
机 器 人 到 达 123 的 动作 序列 。 < 

【 例 3-2] 在 更 复杂 的 情况 下 ， 投 递 机 器 人 可 能 有 多 个 包 右 要 投 送 到 不 同 的 位 置 。 在 
这 种 情况 下 ， 状 态 包含 : 机 器 人 的 位 置 、 机 器 人 正在 投 送 的 包 囊 以 及 其 他 包 训 的 位 置 。 机 
器 人 可 能 做 出 的 动作 包括 : 移动 、 捡 起 与 自己 在 同一 位 置 的 包 圳 ， 或 者 随意 将 包 衷 放下 。 
目标 状态 则 可 能 是 将 一 些 特定 包 庄 送 达 预 期 的 位 置 。 因 为 我 们 不 考虑 机 器 人 或 者 其 他 一 些 
包 囊 的 位 置 ， 所 以 可 能 会 出 现 很 多 目标 状态 。 

注意 上 述 描述 忽略 了 很 多 细节 ， 例 如 ， 机 器 人 怎样 携带 包 囊 (这 会 影响 到 它 是 否 能 携 
带 其 他 包 训 )， 机 器 人 所 剩 的 电量 ， 包 于 是 否 易 碎 或 者 损毁 ， 以 及 地 板 的 颜色 。 我 们 不 把 
它们 作为 状态 空间 的 一 部 分 ， 面 假定 这 些 细节 与 是 前 所 研究 的 问题 无 关 。 “ 

【 例 3-3) 在 一 个 指导 系统 中 ， 一 个 状态 可 能 包含 着 学 生 知 道 的 主题 集合 。 动 作 就 是 
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教授 一 门 特定 课程 ， 教 学 行为 结果 可 能 是 学 生 弄 懂 课 程 的 主题 ， 因 为 学 生 知 道 这 些 主题 是 
他 们 掌握 课程 的 先决 条 件 。 目 标 就 是 学 生 能 够 懂得 一 些 特 定 的 主题 集合 。 

如 果 教 学 的 效果 也 取决 于 学 生 的 能 力 ， 那 么 这 个 细节 信息 也 必须 作为 状态 空间 的 一 部 
分 。 如 果 学 生 正 在 做 什么 并 不 影响 行为 的 结果 ， 也 不 影响 目标 是 否 能 达到 ， 那么 我 们 就 不 
必 为 它 建 模 。 E 

一 个 状态 空间 问题 (state-space problem) 由 以 下 部 分 组 成 : 

© 一 个 状态 集 ; 

。 一 个 特定 状态 集合 ， 称 为 初始 状态 (start state); 

。 每 一 个 状态 中 Agent 可 执行 的 一 个 动作 集 ; 

。 一 个 动作 函数 (action function)， 给 定 一 个 状态 和 一 个 动作 ， 返 回 一 个 新 的 状态 ; 

。 一 个 目标 状态 集 ， 通常 被 定义 为 布尔 函数 ，goal(s)， 当 ;为 目标 状态 时 ， 这 个 函 

数 返回 值 为 真 。 

。 用 于 检验 一 个 可 接受 解 的 质量 的 标准 。 例 如 ， 只 要 能 让 Agent 到 达 目 标 状态 的 任 
意 一 个 行为 序列 都 是 可 接受 的 解 ， 或 者 动作 是 有 花费 的 ，Agent 可 能 被 要 求 找到 
最 小 总 花费 的 解 ， 这 样 的 解 叫做 最 优 (optimal) 解 。 或 者 说 ， 比 最 优 解 花费 多 10% 
.以 内 的 解 都 是 令 人 满意 的 。 

这 种 框架 在 接 下 来 的 章节 中 会 进一步 扩展 讲解 ， 例 如 以 下 情况 ，Agent 可 以 发 掘 状态 
的 内 在 特征 、 状 态 不 能 完全 可 观察 (例如 ， 机 器 人 不 知道 包 囊 在 哪 ， 或 者 老师 不 知道 学 生 
的 能 力 ) ， 或 者 动作 是 随机 的 (例如 ， 机 器 人 有 可 能 跑 过 了 目标 位 置 ， 或 者 学 生 可 能 不 学 习 
被 教 的 主题 ) ， 或 者 不 仅仅 是 到 达 目 标 状态 ， 还 涉及 奖惩 时 存在 着 复杂 的 偏好 ， 等 等 。 


3.3 图 搜索 


在 这 一 章 中 ， 我 们 将 一 般 搜 索 机 制 抽 象 表示 为 在 有 向 图 中 的 路 径 搜 索 。 要 解决 一 个 问 
题 ， 首 先 定义 潜在 的 搜索 空间 ， 然 后 将 搜索 算法 应 用 于 其 中 。 许 多 问题 求解 的 任务 都 可 以 
转化 为 在 图 中 寻找 路 径 的 问题 。 图 搜索 提供 了 抽象 的 一 个 合适 层次 ， 用 这 种 抽象 ， 可 以 研 
究 独 立 于 特定 领域 的 简单 问题 求解 。 

一 个 (有 向 ) 图 包含 一 个 节点 集 及 一 个 节点 间 的 有 向 弧 集 。 其 思路 是 找到 一 条 沿 着 这 些 
弧 从 起 始 节点 到 目标 节点 的 路 径 。 

因为 将 问题 表示 为 图 不 止 一 种 方式 ， 所 以 抽象 很 重要 。 这 一 章 中 的 例子 都 是 有 关 状 态 
空间 搜索 ， 节 点 代表 状态 ， 弧 代表 动作 ， 以 后 的 章节 中 会 讨论 用 图 表示 问题 的 不 同 搜索 
方式 。 


形式 化 图 搜索 


一 个 有 向 图 (graph) 包 括 : 

。 一 个 节点 (node) 集 合 N; 

。 一 个 节点 的 有 序 对 集合 A， 叫 做 驱 (arc) 。 

在 这 个 定义 中 ,节点 可 以 是 任何 东西 。 定 义 的 实质 是 约束 弧 是 节点 的 有 序 对 。 可 以 有 
无 限 多 的 节点 和 弧 。 我 们 并 没有 假设 图 完全 明确 地 表示 出 来 ， 我 们 仅 需 要 有 一 个 进程 根据 
需要 产生 节点 和 弧 。 

Min,» nn) 是 一 条 从 m 的 出 弧 (Coutgoing arc) 和 一 条 至 m KAM Cincoming arc). 
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如 果 有 一 条 从 节点 h 到 节点 到 MR, ea. mCA, WA m 就 是 节点 m HB 
居 (neighbor)。 注 意 到 两 点 是 邻居 不 意味 着 对 称 ， 因 为 ns 是 吉 的 邻居 并 不 意味 着 nn 就 必须 是 
mM. Blan, IAT RE BARA Cable) Af Agent 从 一 个 状态 到 达 另 一 个 状态 的 动作 。 

一 条 从 节点 s 到 节点 g 的 路 径 C(path) 是 一 个 节点 序列 人 4m， 和 站 ，…， 双 )， 节 点 s=m, 
8 二 4，《n;-1，7;) A， 即 对 于 每 一 个 i 都 有 从 ni-1 到 nn; HM. AW E A FF A 
很 有 用 ， (nos Mids “M5 Meds ey Np-1s Ng?’ 或 者 是 这 些 弧 的 标记 序列 。 

— ER (cycle) 是 一 条 起 点 和 终点 相同 的 非 空 路 径 ， 即 一 个 环 是 一 条 路 径 (no。，n， 
Nos tom), m=m 且 R 天 0。 一 个 有 向 图 如 果 没 有 任何 环 就 称 作 有 向 无 环 图 (directed 
acyclic graph，DAG)。 这 可 能 应 该 是 一 个 无 环 的 有 问 图 ， 因 为 它 是 有 向 图 但 是 恰好 无 环 ， 
而 不 是 无 环 图 正好 有 向 ， 但 是 有 向 无 环 图 (DAG) 比 无 环 有 向 图 (acyclic directed graph, 
ADG) 听 起 来 更 好 一 些 。 

树 (tree) 就 是 一 个 有 向 无 环 图 ， 其 中 有 一 个 节点 没有 人 弧 ， 其 他 每 一 个 节点 都 正好 有 
一 条 入 弧 。 没 有 和 人 弧 的 节点 叫做 树 的 根 (root) 节 点 ， 没 有 出 弧 的 节点 叫 叶 (leaves) 节点 。 

要 将 问题 编码 为 图 ， 一 个 节点 集 叫 做 起 始 节点 (start node) ， 另 一 个 节点 集 叫 做 目标 
节点 (goal node) 。 解 (solution) 就 是 从 起 始 节点 到 目标 节点 的 一 条 路 径 。 

有 时 会 有 一 个 与 弧 相 关 的 花费 (cost)， 是 一 个 正 数 ， 我 们 将 弧 m. n) WE Ric FE 
cost(《n;，n)))， 弧 的 花费 会 引起 整个 路 径 的 花费 。 

给 定 一 条 路 径 p= (ros Ms May ts Mes BRE p 的 花费 就 是 路 径 上 弧 的 花费 之 和 : 

cost (p) = cost (<n m )) + cost (Ln; 9n2)) + Tt cost (na sm) 

最 优 解 (optimal solution) 是 最 低 花费 的 解 之 一 。 也 就 是 说 ， 如 果 存 在 一 条 从 起 始 节 点 到 
目标 节点 的 路 径 p， 而 不 存在 其 他 从 起 始 节 点 到 目标 节点 的 路 径 p' 使 得 cost(p')<cost(p), 
那么 这 条 路 径 就 是 最 优 路 径 。 

【 例 3-4] 再 来 看 图 3-1 中 描述 的 投递 机 器 人 寻找 从 位 置 0103 到 位 置 r123 的 路 径 问 
题 。 在 这 个 图 中 ， 感 兴趣 位 置 已 经 标注 。 为 了 简化 问题 ， 我 们 只 考虑 加 粗 字 体 指 示 的 位 置 
并 且 一 开始 就 限定 机 器 人 移动 的 方向 。 图 3-2 显示 了 结果 图 ， 在 这 个 图 中 节点 代表 位 置 ， 





图 3-2 ” 带 有 弧 花费 的 投递 机 器 人 域 的 图 


7E] 


[77] 
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弧 则 表示 机 器 人 在 位 置 间 的 可 能 做 出 的 每 一 步 移动 ， 且 每 条 弧 线 上 标示 出 了 从 一 个 位 置 到 
下 一 个 位 置 的 花费 。 

在 这 个 图 中 ,节点 集合 N={mail, ts, 0103, 63, 0109, =}, MBA A= {Kts, 
mail), (0103, ts), (0103, 63), (0103, 0109), =}. Fix 0125 没有 相 邻 节点 ， 节 点 zs 
有 一 个 相 邻 节点 ， 即 mail, FA 0103 有 三 个 相 邻 节点 ， 即 cs, 53 和 0109, 

这 样 从 0103 到 r123 就 有 三 条 路 径 : 

(0103 .ol109,o119,o123,r123》 

(0103 .63,64,0109,0119,0123.r123)> 

(0103 ,63,61,62 ,64,0109,0119,0123,7r123) 

如 果 0103 是 起 始 节点 ，r123 是 目标 节点 ， 那 么 这 三 条 路 径 都 是 图 搜索 问题 的 解 。 < 

很 多 问题 中 搜索 图 没有 明确 给 出 ， 要 根据 需要 动态 架构 。 所 有 搜索 算法 都 要 求 遵循 的 
原则 是 : 从 一 个 节点 生成 它 的 邻居 ( 子 节点 )， 然 后 确定 它 是 否 是 目标 节点 。 

一 个 节点 的 前 向 分 支 系数 (forward branching factor) 是 指 离 和 开 该 节点 的 弧 ( 出 弧 ) 的 数 
目 ， 而 它 的 后 向 分 支 系数 (backward branching factor) 则 是 指 进 入 该 节点 的 弧 ( 人 弧 ) 的 数 
目 。 这 些 系数 提供 了 图 的 复杂 度 的 测量 标准 。 当 我 们 讨论 搜索 算法 的 时 间 和 空间 复杂 度 
时 ， 假 定 分 支 系 数 最 高 值 ( 自 上 而 下 ) 由 一 个 常数 来 界定 。 

【 例 3-5) 在 图 3-2 中 ， 节 点 o103 的 前 向 分 支 系数 是 3， 即 从 o103 有 三 条 出 弧 。 节 点 
0103 的 后 向 分 支 系 数 是 0， 即 无 人 弧 指 向 节点 0103, mail 前 向 分 支 系数 为 0， 后 向 分 支 系 
数 为 1]。 节 点 03 前 向 分 支 系数 为 2， 后 向 分 支 系数 为 1。 

分 支 系 数 很 重要 ， 因 为 它 是 决定 图 大 小 的 关键 因素 。 如 果 每 一 个 节点 前 向 分 支 系数 是 
5b， 和 且 是 树 型 图 ， 那 么 该 图 中 有 Oo 个 节点 ， 当 前 节点 离 任意 节点 的 弧 的 段 数 是 n, a 


3.4 一 个 通用 搜索 算法 


这 一 节 描 述 在 图 中 寻找 解 路 径 的 一 个 通用 算法 。 这 个 算法 独立 于 任何 特定 的 搜索 策略 
和 特定 的 图 。 
通用 搜索 算法 背后 的 直观 理念 就 


是 给 定 一 个 图 、 一 个 起 始 节点 集 和 一 RER) 

个 目标 节点 集 ， 循 序 渐进 地 从 起 始 节 这 >O->O O 
点 探索 路 径 。 这 要 通过 维持 已 经 探索 BH SS ee OxO O 
过 的 从 起 始 节点 开始 的 路 径 的 边界 © L “QO 
(或 外 围 ) 来 实现 。 边 界 包含 能 构成 从 ee b 
起 始 节点 到 目标 节点 的 初始 部 分 的 所 人 CR 

有 路 径 。( 见 图 3-3， 边 界 就 是 指 通 向 。 已 扩展 节点 9/0 QO 
灰色 节点 的 那 组 路 径 .) 最 初 ， 边 界 包 a Ey O 
FEE WA Fh 9 FÈ H A f R He Nae AFNA 
凡 的 (不 重要 的 ) 路 径 。 随 着 搜索 的 深 PY 六 

A. 边界 扩展 到 未 扩展 节点 ， 最 终 到 TAD A 

达 目 标 节点 。 为 了 扩大 边界 。 搜索 者 © XD 

继续 挑选 ， 从 边界 去 除 路 径 ， 从 最 新 i & 

S AH BILD FB BY Be ak He B BA 


径 加 入 边界 。 搜 索 策略 就 界定 了 在 每 图 3-3 通过 图 搜索 进行 问题 求解 
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一 步 中 需要 选择 哪些 边界 要 素 。 
图 3-4 中 给 出 了 通用 搜索 算法 。 最 初 . 边界 是 一 组 从 起 始 节点 开始 的 空 路 径 。 每 一 步 中 ， 
算法 通过 从 边界 去 除 路 径 4s,。，…，5) 而 继续 推进 边界 。 如 果 goal(s ) 是 真 ( 即 w 是 目标 节 
点 )， 它 就 找到 了 解 并 返回 已 找到 的 路 径 ， 即 (5,，…，5:)。 否 则 就 通过 增加 一 条 出 弧 来 寻找 
s 的 邻居 ， 从 而 扩展 路 径 。 因 为 对 于 5 的 每 一 个 邻居 s， 路 径 45s6，…，s:，s) 都 会 加 入 到 边 
界 中 。 这 一 步 叫做 扩展 (expanding) 节 点 sso 
这 个 算法 有 一 些 要 注意 的 特征 : 
。 13 行 中 路 径 的 选择 是 不 确定 
性 的 。 路 径 的 选择 会 影响 效 
率 ，5.2.2 节 中 “不 确定 性 选 
择 ” 处 有 更 多 关于 路 径 筛 选 使 
用 的 详细 描述 。 特 定 的 搜索 策 
略 决定 选择 哪 一 条 路 径 。 


1; procedure Search(G. S, goal) 
2: Inputs 

3: G: 具有 NN 个 节点 和 A 条 边 的 图 

4: S: 开始 节点 集 

5: goal: 布尔 状态 函数 

6; Output 

7: 从 5 的 一 个 成 员 到 goal 值 为 真 的 节点 的 一 条 路 径 ， 
8: 或 者 如 果 无 解 路 径 则 上 


9, Local 

。 15 行 中 的 return 应 视 为 临时 | 10, wR. BERS 

返回 ,通过 继续 进行 的 16 行 | one 

=. t le frontier 

指令 可 得 出 另 一 条 到 达 目 标的 13: select and remove (s,, +, s,>from Frontier 

搜索 路 径 。 14; if goal(s,) then 
ä > i 由 15: return{s,, ，…， Sa) 

如 果 该 过 程 返回 上 ， Bl AN FF 16; Frontier<FrontierU {(s,. “t, ses 5) * (Se SHEA} 





证 也 无 其 余 解 ) 。 
。 这 个 算法 只 能 用 来 测试 从 边界 
挑选 的 路 径 是 否 能 终止 在 目标 节点 ， 而 不 是 测试 任意 加 入 到 边界 的 路 径 。 对 此 有 
两 点 主要 原因 。 有 时 边界 上 的 节点 到 目标 节点 的 弧 花 费 很 大 ， 搜 索 就 不 应 当 通过 
这 条 弧 返回 路 径 ， 因 为 可 能 存在 更 低 花 费 的 路 径 。 当 要 求 最 低 花 费 路 径 的 时 候 ， 
这 就 显得 尤为 重要 了 。 第 二 点 原因 是 确定 一 个 节点 是 目标 节点 的 代价 很 大 。 
如 果 选 择 的 路 径 不 在 目标 节点 处 终止 ， 并 且 终 止 节点 没有 邻居 ， 那 么 扩展 路 径 意 味 着 
去 除 路 径 。 这 种 结果 是 合理 的 ， 因 为 这 条 路 径 不 能 看 做 是 从 起 始 节点 到 目标 节点 的 路 径 的 
一 部 分 。 


3.5 无 信息 搜索 策略 


一 个 问题 给 定 了 图 和 目标 ， 但 并 没有 给 出 从 边界 中 选择 哪 条 路 径 。 这 是 搜索 策略 的 任 
务 ， 一 个 搜索 策略 指定 如 何 从 边界 中 选择 路 径 。 通 过 改变 在 边界 中 选择 路 径 的 实现 方法 从 
而 可 以 得 出 不 同 的 搜索 策略 。 

这 部 分 介绍 了 三 种 不 考虑 目标 节点 位 置 的 所 谓 无 信息 搜索 策略 (uninformed search 
strategy) 。 直 觉 上 ， 这 些 算法 不 关心 它们 要 到 哪里 去 ， 直 到 找到 目标 节点 并 报告 成 功 。 


3.5.1 深度 优先 搜索 


第 一 个 策略 是 深度 优先 搜索 (depth-first search) 策 略 。 在 深度 优先 搜索 中 ,边界 的 动 
作 像 一 个 先进 后 出 的 堆栈 (stack) 。 这 些 元 素 被 逐次 地 压 人 栈 中 。 在 边界 中 被 选择 并 撤销 的 
节点 肯定 是 最 后 一 个 人 栈 的 元 素 。 


图 3-4 通用 图 搜索 算法 
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[S 3-6] 考虑 图 3-5 中 的 树 形 图 ， 假 设 初始 节点 是 树 的 根 ( 在 顶部 的 节点 )， 节 点 从 
左 到 右 排序 ， 所 以 最 左边 的 邻居 最 后 
被 压 人 栈 中 。 在 深度 优先 搜索 中 ， 节 
点 扩展 的 方向 并 不 依赖 于 目标 节点 的 
位 置 。 图 3-5 中 ,我 们 将 首 批 扩 展 的 
16 个 节点 用 数字 标记 出 来 了 。 阴 影 节 
点 表示 这 16 步 检索 完成 后 ， 边 界 路 径 
上 的 最 终 节点 。 

注意 最 开始 的 6 个 节点 是 如 何在 
单一 的 路 径 上 扩展 的 。 第 6 个 节点 没 
有 邻居 ， 因 此， 下 一 个 要 扩展 的 节点 
是 距离 它 最 近 的 且 有 尚未 扩展 的 子 节 
点 的 父 节 点 的 子 节点 。 < 

利用 堆栈 来 实现 边界 会 导致 使 用 图 3-5 ”深度 优先 搜索 中 节点 的 扩展 顺序 
深度 优先 的 方式 得 到 路 径 一 一 在 查找 一 条 路 径 到 头 之 后 再 尝试 另 一 个 分 支 路 径 。 这 种 方法 
叫做 回溯 (backtracking) : 在 每 一 个 节点 ， 算 法 会 先 选 择 每 个 节点 上 第 一 条 可 选择 的 路 径 
搜索 下 去 ， 当 执行 完 第 一 个 选择 的 整个 路 径 它 会 回溯 到 下 一 个 可 选 的 路 径 。 一 些 路 径 可 能 
是 无 限 的 ， 比 如 当 图 中 有 环 或 者 有 无 限 多 节点 时 ， 这 样 深 度 优 先 搜索 也 许 永 远 不 会 停止 。 

这 种 算法 没有 明确 规定 将 邻居 压 人 堆栈 的 顺序 ， 并 用 堆栈 代表 了 边界 。 算 法 的 效率 就 
跟 这 个 顺序 相关 。 

【 例 3-7] 考虑 图 3-2 中 的 从 房间 0103 出 发 的 深度 优先 搜索 ， 唯 一 的 目标 节点 是 
r123。 在 这 个 例子 里 ， 边 界 表示 为 一 个 路 径 列 表 ， 栈 顶 作 为 列表 的 开始 部 分 。 

最 初 ， 边 界 包含 平凡 路 径 (ol103) 。 

下 一 步 ， 边 界 包含 了 后 面 的 路 径 ; [C0103, ts), (0103, b3), (0103, 0109) ], 

接 下 来 ， 会 选择 路 径 (o0103，ts)， 因 为 它 位 于 栈 顶 。 这 条 路 径 就 从 边界 中 删除 并 用 一 
段 弧 扩展 它 后 再 替换 它 ， 这 样 边 界 就 变 为 ; [《0103, ts, mail), (0103, 63), (0103, 
0109》]。 

接 下 来 ， 第 一 条 路 径 (0103，ts，mail) 也 就 被 删除 并 被 用 一 段 新 弧 扩展 后 的 一 个 路 径 
集 所 替代 ,但 由 于 mail 节点 没有 邻居 ， 所 以 该 集合 是 空 的 。 因 此 边界 变 为 ; [(0103， 
b3), (0103，0109)]。 

在 这 个 阶段 ， 路 径 (o0103，63) 在 堆栈 的 顶部 。 注 意 一 个 事实 ， 当 深度 搜索 已 经 遍历 了 
所 有 的 从 ts 出 发 的 路 径 ( 这 里 只 有 一 条 )， 它 就 要 回 滴 到 堆栈 的 下 一 个 元 素 。 接 下 来 ， 选 择 
《ol103，b3， 并 用 新 弧 的 扩展 路 径 蔡 换 它 ， 边 界 变 为 : [(o103,， b3, 61>, (0103, b3, 
b4), (0103, 0109) ], 

然后 从 边界 中 选择 (0103，683，651) 并 扩展 ， 边 界 变 为 : [(0103, b3, bl, c2), (0103, 
b3, bl, 62), (0103, b3, b4), (0103, 0109)]. 

HEE RRRA PRR, HELA ER, AER: 
[<0103, b3, bl, c2, c3), (0103, b3, bl, c2, cl), (0103, 63, bl, b2), (0103, b3, 
b4), (0103, 0109)]. 

注意 节点 c3 没有 邻居 ， 因 此 搜索 回溯 到 最 近 的 尚未 造访 的 节点 ， 即 cl, a 

假定 Cn。，…，n) 是 在 边界 中 被 选 定 的 路 径 ， 边界 的 每 一 个 其 他 元 素 都 表示 为 
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(roy ts no m), PEP i<n, 节点 m 是 节点 n 的 邻居 。 它 沿 着 多 个 出 弧 确 定 的 所 选 路 
径 ， 然 后 恰好 有 一 个 额外 的 点 。 

为 了 更 好 地 理解 深度 优先 的 复杂 度 ( 参 见 下 面 “ 各 种 算法 性 能 对 比 ” 的 内 容 )， 考 虑 使 用 
家 族 树 来 类 比 ， 一 个 节点 的 邻居 对 应 的 是 树 中 的 子 节 点 。 树 的 根 是 起 始 节点 ， 树 的 分 支 对 
应 的 是 从 起 始 节点 开始 的 路 径 。 考 虑 边界 顶端 的 路 径 的 最 终 节点 ， 边 界 的 其 他 元 素 是 这 个 
节点 父 节 点 的 其 他 子 节点 ， 对 应 就 是 “ 叔 瓜 ”、“ 伯 伯 ”， 等 等 。 如 果 分 支 系数 是 56， 列表 的 
第 一 个 元 素 的 长 度 是 n， 那 么 最 多 有 nX (8 一 1) 个 边界 的 其 他 元 素 。 这 些 元 素 对 应 着 每 一 
个 节点 都 有 2 一 1 个 可 选 路 径 。 因 此 ， 对 于 深度 优先 搜索 ， 使 用 的 空间 开销 与 从 起 始 节点 到 
某 一 个 节点 的 路 径 长 度 呈 线性 关系 。 


各 种 算法 性 能 对 比 


各 种 算法 (包含 搜索 算法 ) 可 以 按 以 下 几 项 进行 比较 : 
。 时 间 开 销 
。 空间 开销 


。 结果 的 质量 以 及 准确 性 

时 间 开 销 、 空 间 开 销 以 及 结果 的 准确 性 都 是 算法 输入 的 函数 。 计 算 机 科学 家 们 所 探讨 
的 渐进 复杂 度 (asymptotic complexity)， 规 定 了 时 空 开 销 是 如 何 随 着 算法 的 输入 量 的 增加 
而 增长 的 。 算 法 对 于 输入 大 小 n 有 时 间 ( 或 空间 ) 的 复杂 度 函 数 OC(f(n)),. 读 作 “ 大 
Of(n)”， 这 里 jz) 是 关于 7 的 函数 ， 如 果 存 在 常数 n 和 &， 对 于 所 有 的 nn, 都 有 算法 
的 时 间或 空间 开销 少 于 kXf(n)。 这 个 函数 的 最 常见 形式 是 指数 函数 ， 如 2"、3"、1. 015"; 
SRABH, wav n’, n, n”, 或 对 数 函 数 ， 如 logn。 一 般 来 说 ， 指 数 函 数 算法 比 多 项 
式 函 数 算法 复杂 度 增长 更 快 ， 相 应 的 ， 多 项 式 函 数 算法 比 对 数 函 数 增 长 的 快 。 

当 输 入 大 小 为 妹 时 ， 如 果 存 在 常数 n HR. MERAH mx， 都 有 算法 的 时 间或 空 
BARAT RX fl(n)， 就 称 算法 有 时 间或 空间 复杂 度 Q(f(n))。 一 个 算法 如 果 有 复杂 度 
Oln) 和 Ql(n)， 那 么 它 就 有 了 时 间或 空间 的 复杂 度 BC(f(n))。 通 常情 况 下 ， 不 能 说 一 个 算法 
的 复杂 度 是 @(f(n))， 因 为 大 多 数 算法 输入 不 同 ， 时 间 开 销 也 不 同 。 因 此 ， 当 比较 算法 
时 ， 必 须 确定 问题 分 类 。 

当 通 过 时 间 、 空 间或 准确 性 某 个 方面 衡量 出 算法 A 比 算法 B 更 优 ， 则 意味 着 : 

。 A 最 坏 的 情况 比 B 的 最 坏 的 情况 好 ; 

。 在 实践 中 ，A 能 更 好 运行 。 或 者 在 考虑 典型 性 问题 的 平均 情况 时 ，A 运行 的 平均 

Hw BO; 

。 由 你 描述 哪 类 问题 使 用 算法 A 比 B 好 ， 所 以 算法 的 优 劣 取决 于 要 解决 的 问题 ; 

。 对 于 任何 的 问题 ， A 都 比 B 好 。 

最 坏 情况 的 渐进 式 复 杂 度 往往 最 容易 显现 ， 但 它 通常 是 最 没 用 的 。 如 果 很 容易 确定 所 
给 定 问 题 是 哪 一 类 ， 通 过 对 问题 的 特征 分 类 来 决定 哪 种 算法 更 优 是 最 有 用 的 方法 。 不 幸 的 
是 ， 这 种 特征 分 类 很 难 。 

通过 对 问题 的 特征 分 类 来 确定 哪 种 算法 更 优 ， 可 以 在 理论 上 通过 数学 方法 或 在 经 验 上 
通过 建立 程序 来 实现 。 这 些 数学 定理 的 有 效 性 只 能 依赖 于 作为 基础 的 假设 。 相 似 地 ， 基 于 
经 验 的 程序 验证 只 能 在 测试 用 例 和 算法 实际 的 实现 方法 中 有 效 。 我 们 很 容易 通过 举 个 反例 
来 反 驱 一 种 算法 对 某 类 问题 更 优 的 猜想 ， 但 却 很 难 证 明 这 种 猜想 。 
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如 果 第 一 个 分 支 搜索 就 得 到 一 个 解 ， 那 么 时 间 复 杂 度 就 与 路 径 的 深度 呈 线 性 关系 ， 它 
只 考虑 这 条 路 径 上 的 元 素 ， 以 及 它 的 兄弟 姐妹 。 最 坏 情况 的 时 间 复 杂 度 是 无 限 大 。 即 使 存 
在 一 个 解 ， 如 果 这 个 图 是 无 限 的 或 者 循环 的 ， 深 度 优先 搜索 会 陷入 无 限 的 分 支 然后 永远 找 
不 到 解 。 如 果 图 是 有 限 的 树 ， 前 向 分 支 系数 最 大 是 5， 深度 为 上， 那么 最 坏 情 况 的 时 间 复 
杂 度 是 OW"). 

【 例 3-8〗 考虑 修改 前 面 的 图 ， 让 Agent 在 位 置 之 间 移动 更 自由 ， 得 出 图 3-6， 一 条 无 
RRR ts HI mail, Ria lB ts, HIKE mai， 如 此 循环 往复 。 显 然 ， 深 度 优 先 搜 
索 将 沿 着 这 条 路 径 永 远 搜 索 下 去 ， 而 不 会 考虑 到 63 或 者 o109 等 可 选择 路 径 。 前 5 次 反复 
使 用 深度 优先 路 径 搜索 算法 得 到 的 边界 如 下 : 


LC0103)] 

[C0103,t5) ,0103,63) ,C0103,0109)] 

[<0103.ts,mail) ,0103,ts ,0103), (0103,63) .40103,0109) | 

[ (0103s ,mail ,ts ,C0103,4s +0103) ,60103,63),(0103,0109)] 

[(0103,ts,mail ,ts,mail),{0103,ts ,mail ,ts ,0103) , (0103 ,ts +0103) ,40103,63) ,0103,0109)] 


C7123 ) 
4 


Giiorage) 






Crai Je» 


图 3-6 投递 机 器 人 域 的 有 环 图 。Xe*>*Y 表示 从 XX 到 了 有 一 段 弧 ， 从 Y BX 也 有 一 段 弧 ， 
即 (X，Y)EA 及 (Y，X)EA 


可 以 通过 不 考虑 有 环 路 径 来 优化 深度 优先 搜索 。 < 

因为 深度 优先 搜索 对 邻居 加 入 边界 的 顺序 敏感 ， 这 一 点 必须 仔细 对 待 。 这 个 顺序 可 以 
是 静态 的 (这 样 邻居 的 顺序 固定 ) 或 者 是 动态 的 (邻居 的 顺序 由 目标 节点 决定 )。 

深度 优先 搜索 适用 的 条 件 : 

。 空间 是 被 限定 的 ; 


。 存在 许多 解 ， 可 能 路 径 很 长 ， 尤 其 当 几乎 所 有 路 径 都 导致 一 个 解 时 
83 。 节点 邻居 的 压 栈 的 顺序 可 以 调整 ， 以 便 在 第 一 次 尝试 中 就 找到 解 。 


深度 优先 搜索 不 适用 的 条 件 : 
。 当 图 是 无 限 的 或 者 图 中 有 环 的 时 候 ， 有 可 能 陷入 无 限 的 路 径 中 ; 


#3% 状态 和 搜索 55 


。 解 路 径 存在 于 隐蔽 的 深度 ， 因 为 在 这 种 情况 下 可 能 要 搜索 很 多 条 长 路 径 才 能 发 现 
短路 径 结 果 。 
深度 优先 搜索 是 许多 其 他 搜索 算法 的 基础 ， 如 迭代 搜索 。 


3.5.2 宽度 优先 搜索 


在 宽度 优先 搜索 (breadth-first search) 中 ， 边 界 是 用 一 个 先进 先 出 (FIFO) 队 列 实现 的 。 
因此 ， 最 开始 从 边界 中 选择 的 路 径 是 最 早 进 入 队列 的 。 

这 个 方法 意味 着 从 初始 节点 出 发 的 路 径 按 照 弧 数目 多 少 的 顺序 依次 产生 。 在 每 一 个 阶 
段 中 ， 选 择 弧 最 少 的 那 条 路 径 。 

【 例 3-9] 来 看 图 3-7 中 的 树 形 图 。 
假定 起 始 节点 在 顶部 。 在 宽度 优先 搜 
索 中 ， 节 点 扩展 的 顺序 与 目标 节点 的 
位 置 无 关 ， 这 与 深度 优先 搜索 相同 。 
最 开始 搜索 的 16 个 节点 的 扩展 顺序 已 
经 在 图 中 标记 出 来 了 。 在 最 开始 扩展 
的 16 步 完 成 后 ， 阴 影 节点 就 是 多 条 路 
径 的 末端 ， 并 组 成 了 边界 。 < 

【 例 3-10] 考虑 图 3-2 从 0103 的 
宽度 优先 搜索 。 唯 一 的 目标 节点 是 
rl23。 最 开始 ， 边 界 是 [to103)]。 然 
后 经 过 o103 的 邻居 得 到 扩展 的 边界 ， 
即 [(o103,， ts), (0103, b3), (0103, 图 3-7 宽度 优先 搜索 中 节点 的 扩展 顺序 
0109)]。 这 些 都 是 0103 的 一 条 出 弧 所 指向 的 节点 。 下 面 选 择 的 三 条 路 径 是 (0103，ts)， 
(0103, b3), (0103, 0109), IARE, WAP ÆA: [(0103, ts, mail), (0103, 63, 
bl), (0103, b3, b4), (0103, 0109, 0111), (0103, 0109, 0119)]. 

这 些 路 径 都 包含 有 两 段 弧 ， 并 都 始 于 o103。 经 过 下 一 步 的 边界 节点 选择 和 扩展 ， 得 到 
新 的 五 条 路 径 ， 这 时 边界 包括 的 从 0103 出 发 的 路 径 都 含有 三 段 弧 。 记 作 : [ol103，23， 
bl. c2), (0103, 63, bl, 62), (0103, 63, b4, 0109), (0103, 0109, 0119, storage), 
(0103, 0109, 0119, 0123) ], 

注意 到 边界 的 每 一 条 路 径 都 有 近似 相等 的 弧 数 。 对 于 宽度 优先 搜索 ， 通 常 边界 中 路 径 
的 弧 数 最 大 相差 1 条 。 

假定 搜索 的 分 支 系数 是 5。 如 果 边 界 的 第 一 条 路 径 包 含 n 段 浙 ， 那么 边界 中 就 至 少 有 
b"”! 个 节点 。 所 有 的 这 些 路 径 包 含 n 或 者 nn 十 1 段 狐 。 因 此 ， 根 据 到 达 目 标 节点 弧 数 最 少 的 
那 条 路 径 上 的 弧 数 ， 空 间 和 时 间 复 杂 度 呈 指 数 级 增长 。 无 论 如 何 ， 这 个 方法 可 以 保证 只 要 
有 和 解 就 能 找到 ， 并 且 是 最 少 弧 的 解 。 

宽度 优先 搜索 适用 于 : 

。 不 存在 空间 问题 ; 

。 想 找 最 少 弧 的 路 径 ; 

。 可 能 有 很 少 的 解 ， 但 是 至 少 有 一 个 短路 径 解 ; 

。 可 能 存在 无 限 的 路 径 ， 因 为 它 会 遍历 所 有 的 搜索 空间 ， 即 使 是 无 限 的 路 径 。 

这 个 算法 并 不 适用 于 所 有 的 路 径 都 很 长 ， 或 者 有 一 些 可 用 的 启发 知识 的 情况 。 因 为 空 
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间 复 杂 度 很 大 ， 所 以 它 并 不 常用 。 
3.5.3 最 低 花 费 优先 搜索 


当 路 径 的 花费 与 弧 有 关 时 ， 我 们 常常 想 找 到 总 花费 最 小 的 路 径 。 例 如 ， 对 于 一 个 投递 
机 器 人 ,花费 可 能 是 两 位 置 之 间 的 距离 ， 我 们 需要 总 距离 最 短 的 那 条 解 路 径 。 花 费 也 可 能 
是 机 器 人 按照 弧 实施 动作 所 需要 的 各 种 资源 。 一 个 指导 系统 的 花费 可 能 是 学 生 所 需要 的 时 
间 和 和 精力。 在 每 一 种 情况 下 ， 搜 索 者 都 试图 找到 最 低 花费 的 解 路 径 来 达到 目标 。 

目前 为 止 考 虑 的 搜索 算法 不 能 保证 找到 最 低 花费 的 路 径 ， 他 们 完全 没有 使 用 弧 花 费 的 
任何 信息 。 宽 度 优先 搜索 首先 找到 弧 数 最 少 的 路 径 ， 但 这 未 必 是 最 少 花费 的 路 径 。 

最 简单 的 能 保证 找到 最 低 花 费 路 径 的 搜索 方法 与 宽度 优先 搜索 算法 相似 。 不 同 的 是 ， 
它 是 寻找 最 低 花费 的 路 径 ， 而 不 是 通过 扩展 路 径 找 最 少 弧 数 的 路 径 。 这 是 通过 把 边界 作为 
一 个 由 花费 函数 排序 的 优先 级 队列 来 实现 的 。 

【 例 3-11〗 看 图 3-2， 考 虑 图 中 从 0103 开始 的 最 低 花 费 优先 搜索 。 唯 一 的 目标 节点 是 
门 23。 这 个 例子 中 ， 路 径 由 最 后 的 节点 表示 ， 下 标 是 路 径 的 花费 值 。 

最 初 ， 边 界 是 Lo103,]。 下 一 阶段 是 Lp83, tsss 0109, ]。 因 为 63 的 花费 最 小 ， 所 以 选 
择 了 到 53 的 路 径 ， 结 果 边 界 变 为 [21s tsss btn, 0109]. 

AW bl 的 花费 最 小 ， 然 后 选择 到 刀 的 路 径 ， 结 果 为 : [tss，c2n， béns 0109). 


bialo 

因为 ts 的 花费 最 小 ， 然 后 选择 到 cs 的 路 径 ， 结果 为 : [c21., 64, 0109,., maily, 
62.4]. 

然后 选择 到 c2 的 路 径 ， 如 此 循环 。 注 意 最 低 花 费 优先 搜索 是 如 何 逐 渐 增 长 路 径 的 ， 
它 总 是 扩展 花费 值 最 低 的 路 径 。 < 


如 果 一 个 问题 存在 解 路 径 ， 弧 线 的 花费 被 界定 为 低 于 一 个 正常 数 且 分 支 系 数 也 是 有 限 
的 ， 那么 最 低 花 费 优先 搜索 就 能 确定 找到 一 个 最 优 解 ( 即 有 最 低 花费 的 路 径 )。 而 且 ， 最 先 
找到 的 路 径 就 是 花费 最 低 的 路 径 。 因 为 算法 产生 的 路 径 从 最 初 就 是 按照 路 径 花 费 值 排序 
的 ， 所 以 这 个 解 是 最 优 的 。 如 果 存 在 一 个 比 第 一 个 被 发 现 的 解 更 优 的 解 ， 它 在 边界 中 会 被 
选择 得 更 早 。 

界定 的 弧 花 费 是 用 来 保证 最 低 花费 搜索 能 找到 最 优 解 。 如 果 没 有 这 样 的 界定 ， 就 会 有 
有 限 花 费 的 无 限 路 径 。 例如 ， 对 于 每 一 个 i>0, 节点 Nos Mrs Mes coe WP AY MAR Coy.» 
2 中 每 一 条 弧 线 的 花费 都 是 1/2 4 这 样 的 话 ， 存在 很 多 形式 为 (no， Nis Noy *%9 ni) 的 路 
径 ， 它 们 的 花费 都 小 于 1。 如 果 有 一 条 弧 从 no 到 目标 节点 的 花费 大 于 或 等 于 1， 它 将 永远 
都 不 会 被 选中 。 这 个 就 是 早 在 2300 年 前 亚 里 土 多 德 写 到 的 “ 芝 诺 悖 论 " 的 基础 。 

像 宽度 优先 搜索 ， 最 低 花 费 优先 搜索 在 时 间 和 空间 上 都 是 典型 的 指数 函数 。 它 会 产生 
所 有 的 低 于 解 路 径 花费 的 从 起 始 节点 开始 的 路 径 。 


3.6 启发 式 搜索 


前 面 说 的 所 有 的 算法 都 是 无 信息 的 ， 并 没有 考虑 目标 节点 在 哪里 。 它 们 没有 使 用 任何 
指引 它们 该 向 哪 去 的 信息 ， 除 非 它 们 无 意 中 发 现 目标 。 关 于 哪些 节点 是 最 有 和 希望 节点 的 启 
发 信息 的 一 种 形式 叫做 启发 函数 h(n)， 这 个 函数 参数 为 节点 n， 返回 一 个 非 负 实数 ， 即 为 
节点 nn 到 目标 节点 的 估计 花费 。 如 果 h(n) 的 值 小 于 或 等 于 从 xn 节点 到 目标 节点 最 低 花 费 路 
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径 的 实际 花费 ， 那 么 就 说 启发 函数 是 “低估 ”的 。 

启发 函数 是 得 出 目标 的 搜索 方向 的 一 种 方式 。 它 提供 一 个 有 信息 依据 的 方法 来 猜测 节 
点 的 哪个 邻居 将 会 通 往 目标 节点 。 

启发 泪 数 没有 什么 神奇 可 言 。 它 只 能 使 用 可 容易 地 从 节点 上 获取 的 信息 。 通常 情况 
下 ， 需 要 在 以 下 两 个 值 之 间 做 折 中 : 获取 一 个 节点 的 启发 值 所 花费 的 工作 量 ， 以 及 一 个 节 
点 的 启发 值 如 何 准 确 地 衡量 从 该 节点 到 目标 的 实际 路 径 花 费 。 

得 到 启发 函数 的 一 个 标准 方式 是 : 解决 一 个 更 简单 点 的 问题 ， 然 后 将 简化 了 的 问题 的 
实际 花费 作为 原始 问题 的 启发 函数 。 

【 例 3-12】 图 3-2 中 ， 从 节点 到 目标 位 置 的 直线 距离 可 以 作为 启发 函数 。 

下 述 实 例 中 假设 如 下 启发 函数 : 

h(mail) 26 ACts) 

h(o109) 24 holll) 

h(o123) 4  h(o125) 

h(él) 13 h(b2) 

h(b4) 18 h(cl) 6 h(c2) 

h(c3) 12 A(storage) 12 


h 函数 就 是 一 个 低估 ， 因 为 的 值 小 于 或 等 于 从 节点 到 目标 的 最 低 花 费 路 径 的 真实 花 
费 。 对 于 0123 来 说 , h 的 值 就 是 真实 花费 值 。 对 51 来 说 ， 则 是 很 大 的 低估 ， 看 起 来 61 离 
目标 很 近 ， 但 其 实 只 能 通过 一 条 很 长 的 路 径 才 能 到 达 目 标 。 而 对 于 cl 来 说 ， 这 个 有 值 则 
差 之 千里 ， 因 为 看 起 来 它 离 目标 节点 很 近 ， 事实 上 没有 从 该 节点 通 往 目标 节点 的 路 径 。 < 

【 例 3-13) 在 例 3-2 中 的 投递 机 器 人 ， 状 态 空 间 包 含 要 运送 的 包 右 。 假 定 花 费 函 数 是 
机 器 人 运送 所 有 包 右 走 过 的 总 距离 。 一 个 可 能 的 启发 函数 就 是 一 个 包 夺 到 目的 地 的 最 大 距 
离 。 如 果 机 器 人 只 能 携带 一 个 包 囊 ， 那 么 可 能 的 启发 函数 就 是 包 训 经 过 的 距离 之 和 。 如 果 
机 器 人 一 次 可 以 携带 多 个 包 右 ， 那 么 这 个 启发 函数 就 不 是 真实 花费 的 低估 了 。 可 

h ppl en 路 径 的 启发 值 是 路 径 最 后 的 节点 的 启发 值 。 即 

hlina 7 ) =A) 

启发 函数 的 一 个 简单 应 用 是 在 深度 优先 搜索 中 为 邻居 排序 ， 这 些 节 点 被 依次 压 人 堆栈 
“来 表示 边界 ,这样 邻 居 被 加 入 边界 ， 因 此 最 先 选择 的 是 最 优 邻居 ， 即 所 谓 “ 启 发 式 深 度 优 
$” (heuristic depth-first search) 算 法 。 这 种 搜索 算法 可 以 找到 局 部 最 优 路 径 ， 但 是 在 搜索 
另 一 条 路 径 之 前 ， 它 会 遍历 所 有 已 选 路 径 。 尽 管 这 个 算法 常用 ， 但 也 受 困 于 深度 优先 搜索 
自身 的 问题 。 

启发 函数 的 另 一 种 使 用 方式 是 : 总 是 选择 边界 中 具有 最 低 启 发 值 的 路 径 ， 这 叫做 最 优 
优先 搜索 (best-first search) 。 这 个 方法 通常 不 太 有 效 ， 它 会 选择 看 上 去 最 有 希望 的 路 径 ， 
因为 他 们 离 目标 节点 很 近 ， 但 是 路 径 花 费 会 不 断 增加 。 “vy 

【 例 3-14) 如 图 3-8 所 示 ， 弧 线 的 花费 是 它 的 长 G 
E. 目标 是 找到 从 s 到 g 的 最 短路 径 。 假 定 到 节点 g 的 
欧 几 里 得 距离 是 启发 函数 。 启 发 深度 优先 搜索 将 会 选 
择 位 于 s 下面 的 节点 ， 并 永远 不 会 终止 。 相 似 地 ， 因 为 
s 以 下 的 所 有 节点 看 起 来 都 不 错 ， 最 优优 先 搜 索 将 

它们 之 间 循 环 ， 而 从 不 尝试 由 s 开始 的 其 他 可 替换 

< ”图 3-8 不 适用 最 优优 先 搜索 的 图 


Il 
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3.6.1 A’ 搜索 


A' 搜索 是 最 低 花费 优先 搜索 和 最 优优 先 搜索 的 结合 ， 它 在 选择 路 径 扩展 时 既 要 考虑 
路 径 的 花费 也 要 考虑 启发 信息 。 对 于 边界 上 的 每 一 条 路 径 ，A* 都 会 估计 沿路 径 从 初始 节 
点 到 目标 节点 的 总 路 径 花 费 。 它 使 用 函数 cost(p)( 即 已 找到 的 路 径 花 费 ) 和 启发 函数 hh(p) 
( 即 从 p 的 结尾 到 目标 的 估计 花费 )。 

对 于 边界 上 的 任意 路 径 p， 定 义 函 数 f(p) 二 cost(p) 十 h(p)， 指 沿 着 路 径 p 到 目标 节 
点 的 估计 总 花费 。 

如 果 nn 是 路 径 p 的 末节 点 ， 那么 可 以 描述 为 : 


A as 

如 果 有 (zz?) 是 从 区 点 nn 到 目标 节点 路 径 花 费 的 低估 ， 那 么 f(p) 就 是 从 初始 节点 经 过 卢 
到 目标 节点 路 径 花费 的 低估 。 

A` 是 通过 将 边界 看 做 按照 /(p) 进 行 排序 的 优先 级 队列 来 实现 的 。 

【 例 3-15) 对 例 3-4 运用 A 算法 进行 搜索 ， 并 使 用 例 3-12 的 启发 函数 。 在 这 个 例子 
中 ,边界 上 的 路 径 用 路 径 上 最 后 一 个 节点 来 表示 ， 下 标 是 路 径 的 了 值 。 初 始 边界 是 : 
[o103s ]， 因 为 h(o103) 二 21， 路 径 花 费 是 0。 然 后 用 邻居 替换 ， 形 成 新 的 边界 : L632 ， 
tsas 010935 ]. 

第 一 个 元 素 代表 路 径 (o103，23?， 它 的 了 了 的 值 为 : f(o103, 63>) =cost({ol03, 63>) + 
h(b3)=4+17=21, BF 63 就 被 邻居 替换 ， 边 界 变 为 : [blas bézs tss 010936]. 

然后 到 b1 的 路 径 被 b1 的 邻居 替换 ， 边 界 变 为 : [c2s1，6b4zs，b22s， tsa, 01095 }. 

接 下 来 ， 到 c2 的 路 径 被 它 的 邻居 蔡 换 ， 边界 变 为 : Lela,» bås 62295 C3205 E5319 
0109; ]。 

直到 这 个 状态 ， 搜 索 一 直 都 在 找 看 起 来 直接 通 往 目 标 节 点 的 路 径 。 下 面 ， 选 择 cl 被 
相 邻 点 替代 ， 形成 边界 : [L642 ， 52295 C3259 tsi» C3as5 010936]. 

直到 这 一 步 ， 到 c3 有 两 条 不 同 路 径 。 其 中 一 条 不 经 过 cl1， 它 的 了 值 要 比 经 过 cl HA 
外 一 条 路 径 低 。 在 后 面 ， 我 们 会 考虑 将 其 中 一 个 路 径 剪 枝 的 情况 。 

这 里 有 两 条 相同 了 值 的 路 径 。 算 法 没有 指定 选择 哪 条 。 假 设 下 一 步 选择 了 通 往 54 的 
路 径 ， 并 被 它 的 相 邻 点 替换 ， 形成 边界 : [22>， C3293 £8335 €3355 0109365 01092 J. 

然后 选择 到 52 的 路 径 并 被 邻居 替换 ， 但 这 条 路 径 是 空 集 ， 所 以 形成 边界 : [c3。， 
1531+ C3339 6435+ al09 010942 |. 

然后 到 c3 的 路 径 被 删除 ， 它 没 有 邻居 ， 因此 ， 新 的 边界 变 为 : [tss s C335， b4ss 5 
01093, 01094]. 

注意 4 "算法 是 如 何 从 一 开始 寻求 多 个 不 同 路 径 的 。 

最 终 会 找到 一 个 最 低 花 费 路 径 。 这 个 算法 会 强制 尝试 很 多 不 同 的 路 径 ， 因 为 它们 其 中 的 
一 些 路 径 暂 时 看 上 去 有 最 低 花费 。 它 仍然 比 最 低 花 费 优先 和 最 优优 先 搜索 方法 都 要 好 。 < 

【 例 3-16) 考虑 图 3-8， 对 于 其 他 的 启发 方法 ， 这 是 个 有 问题 的 图 。 虽 然 由 于 局 发 函 
数 ， 起 始 情况 从 节点 s 向 下 搜索 ， 但 最 终 路 径 的 花费 变 得 非常 大 ， 因 此 它 选 择 了 在 实际 最 
优 路 径 上 的 节点 。 a 

WR, A 总 是 能 找到 最 优 解 ， 而 且 搜索 的 第 一 条 路 径 就 是 最 优 的 ， 这 个 性 质 
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叫做 A" 的 “可 采纳 性 ”(admissibility)。 它 意味 着 : 即使 当 搜 索 空 间 是 无 限 的 ， 如 果 解 存 
在 ， 那 么 就 一 定 能 找到 解 ， 而 且 找 到 的 第 一 条 路 径 就 是 最 优 解 ， 即 从 起 始 节 点 到 目标 节点 
的 最 低 花费 路 径 。 

命题 3. IA 可 采纳 性 ) ”如 果 存 在 解 ，A" 总 可 以 找 一 个 解 ， 并 且 找 到 的 第 一 个 解 就 
是 最 优 解 ， 如 果 : 

。 分 支 系数 有 限 ( 每 一 个 节点 有 有 限 个 邻居 ); 

。 MAIR KT < 二 0; 

。 用 (n) 是 从 节点 nn 到 目标 节点 的 最 低 花 费 路 径 的 最 小 实际 花费 值 的 下 界 。 

iE AA: 

A 部 分 : 可 以 找到 解 。 如 果 弧 线 的 花费 都 大 于 ee ,es >0， 最 终 对 于 边界 中 所 有 的 路 径 
PP，cost(p) 会 超过 任何 有 限 的 数 。 因 此 ， 如 果 存 在 解 ，cosi(p) 会 超过 解 的 花费 (搜索 树 的 
深度 不 会 大 于 m/c, XB m 是 解 的 花费 )。 因 为 分 支 系 数 是 有 限 的 ， 在 搜索 树 还 没 扩 展 到 
这 个 规模 之 前 ， 只 能 扩展 有 限 数 目的 节点 ,但 是 那 时 A 算法 已 经 找到 了 解 路 径 。 

B 部 分 : 找到 的 第 一 条 解 路 径 就 是 最 优 路 径 。 在 最 优 解 路 径 中 ， 任 何 一 个 节点 的 了 值 
都 小 于 或 者 等 于 最 优 解 的 f 值 。 这 是 因为 h 是 从 一 个 节点 到 目标 的 实际 花费 的 低估 。 因 
此 ， 最 优 解 路 径 中 任何 一 个 节点 的 f 值 都 小 于 任何 非 最 优 解 的 了 值 。 所 以 ， 当 一 个 节点 存 
在 于 指向 最 优 解 的 边界 中 时 ， 算 法 永远 不 会 选择 一 个 非 最 优 的 路 径 ( 因 为 在 每 一 步 中 ， 都 
会 选择 了 值 最 小 的 元 素 )。 因 此 ， 在 可 能 选择 一 个 非 最 优 解 之 前 ， 它 肯定 已 经 造访 了 一 
最 优 路 径 上 的 所 有 的 节点 ， 包 括 每 一 个 最 优 解 。 E 

应 该 注意 到 : A” 的 可 采纳 性 不 能 保证 每 一 个 从 边界 中 选择 的 中 间 节 点 位 于 从 开始 节 
点 到 目标 节点 的 最 优 路 径 中 。 可 采纳 性 使 算法 不 必 担 心 环 路 问题 ， 保 证 了 第 一 个 解 是 最 优 
解 。 但 当局 部 路 径 最 优 时 ， 它 并 不 能 保证 算法 不 会 改变 主意 。 

看 一 下 启发 函数 是 如 何 提高 A 算法 的 效率 的 ,假设 c 是 从 起 始 节 点 到 目标 节点 的 最 
短路 径 的 花费 。A* 具有 可 采纳 性 的 启发 信息 ， 扩 展 集合 {p:cosi(p) 十 h(p) 二 c} 中 从 起 始 
节点 开始 的 每 一 条 路 径 ， 或 者 集合 {p:cost(p) 十 h(p) 二 c} 中 的 某 些 路 径 。 

如 果 减 少 这 些 集合 中 第 一 部 分 的 数量 ， 提 高 h 则 会 影响 A" 的 效率 。 


3. 6.2 搜索 策略 总 结 
图 3-9 中 的 表格 给 出 了 各 种 搜索 策略 的 总 结 。 





图 3-9 搜索 策略 的 总 结 
注 ;“ 终 止 否 ” 意 味 着 “如 果 图 (可 能 无 穷 大 ) 中 有 一 条 到 目标 的 路 径 ， 该 路 径 上 每 个 节点 都 有 有 限 个 数量 的 邻居 ， 
且 每 条 呈 的 花费 都 有 正 值 下 界 ， 那 么 这 个 方法 能 否 保证 搜索 终止 ? ”。 那 些 回答 "Yes" 的 搜索 策 骆 的 最 坏 情 
况 下 的 时 间 复 杂 度 与 路 径 长 度 呈 措 数 形式 增长 。 那 些 不 能 保证 终止 的 算法 有 无 限 最 环 情 况 的 时 间 复 杂 度 。 
“空间 ” 指 的 是 空间 复杂 度 ， 它 与 路 径 长 度 是 "线性 "或 是 "指数 级 "关系 。 


深度 优先 搜索 在 空间 上 与 造访 路 径 的 长 度 呈 线性 增长 ,但 是 即使 有 解 存在 ， 它 也 不 能 
保证 能 找到 解 。 宽 度 优先 、 最 低 花 费 优先 以 及 A' 算法 在 时 间 和 空间 上 都 是 旦 指数 增长 ， 
只 要 解 存在 ， 即 使 图 是 无 限 大 的 (只 要 分 支 系 数 有 界 ， 弧 线 花 费 是 正 非 平凡 )， 它 们 都 能 保 
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证 找到 解 。 
最 低 花费 优先 和 A“ 搜索 算法 都 能 保证 第 一 个 找到 的 解 是 最 低 花费 的 解 。 


3.7 更 复杂 的 搜索 方法 


之 前 的 策略 可 以 进行 很 多 优化 。 首 先 ， 我 们 给 出 两 种 适用 于 图 中 有 环 的 方法 : 一 种 是 
对 环 路 的 明确 检查 ， 而 另 一 种 是 对 到 某 一 节点 的 多 路 径 检查 。 然 后 ， 我 们 给 出 迭代 深度 算 
法 和 深度 分 支 界 限 搜索 法 ， 这 两 种 方法 是 能 保证 找到 解 路 径 ( 甚 至 是 最 优 解 ) 的 一 般 方 法 ， 
就 像 宽 度 优 先 搜 索 算 法 或 者 A 搜索 算法 ， 但 是 利用 了 深度 优先 搜索 的 空间 优点 。 我 们 将 
搜索 问题 分 解 为 很 多 小 的 搜索 问题 来 简化 搜索 方法 ， 这 样 每 一 个 都 更 容易 解决 。 最 后 ， 我 
们 说 明 利 用 动态 规划 法 如 何 寻找 路 径 和 构建 启发 函数 。 


3.7.1 RRB 


用 来 代表 搜索 空间 的 图 可 能 包含 环 .例如 ， 图 3-6 中 的 机 器 人 域 中 的 机 器 人 会 在 节点 
0103 和 o109 之 间 来 回 移 动 。 前 面 所 述 的 搜索 方法 中 有 些 会 陷入 环 ， 不 断 循环 ， 甚 至 在 有 
限 图 中 也 找 不 到 搜索 结果 。 其 他 的 方法 也 可 能 循环 ， 但 最 终 会 找到 解 。 

当 能 保证 在 有 限 图 中 找到 解 后 ， 修 剪 搜索 树 的 最 简单 的 方法 是 ， 不 考虑 那些 已 经 在 从 
起 始 节点 开始 的 路 径 上 的 点 。“ 环 检查 ”(cycle check) 和 “回路 检查 ”(loop check) 就 是 用 来 
检查 最 后 一 个 节点 是 否 在 从 初始 节点 到 这 个 点 的 路 径 上 出 现 过 。 有 了 循环 检查 ， 只 有 路 径 
(sy tty Sey S), SHB, SE {sos =s sehe 加 入 了 图 3-4 中 第 16 行 。 另 外 ， 也 可 以 在 选择 
了 节点 之 后 再 进行 检查 ， 删 除 有 环 的 路 径 。 

环 检查 的 计算 复杂 性 决定 于 所 使 用 的 搜索 方法 。 对 于 深度 优先 搜索 方法 ， 其 图 是 显 
式 存储 的 ， 管 理 费用 跟 常数 因子 一 样 低 。 图 中 每 个 节点 增加 1 位 ， 当 节点 扩张 的 时 候 该 
位 应 当 为 1， 回潮 的 时 候 为 0。 搜索 算 法 可 以 通过 不 扩展 该 位 是 1 的 节点 来 避免 循环 。 
因为 深度 优先 算法 保持 单一 当前 路 径 ， 所 以 这 个 方法 有 效 ， 路 径 上 的 边界 有 可 替代 的 分 
支 。 即 使 图 是 动态 生成 的 ， 只 要 当前 路 径 上 的 点 有 一 个 有 效 的 索引 结构 ， 那 么 很 容易 完 
成 环 检查 。 

对 于 多 路 径 的 搜索 策略 (也 就 是 说 ， 图 3-9 中 所 有 有 指数 空间 的 那些 ) ， 环 检查 的 时 间 
与 搜索 的 路 径 长 度 保持 线性 增长 。 在 检查 以 保证 不 会 添加 已 经 在 路 径 中 出 现 过 的 节点 上 ， 
这 些 算法 不 能 比 搜索 局 部 路 径 做 得 更 好 。 


3.7.2 多 路 径 剪 枝 


通常 有 多 条 路 径 通 向 一 个 节点 。 如 果 只 需要 一 条 路 径 ， 对 于 已 经 找到 一 条 路 径 的 节 
点 ， 搜 索 算 法 就 需要 从 边界 中 剪 枝 掉 其 他 任何 通 往 该 节点 的 路 径 。 

& 94% BK Cmultiple-path pruning) 是 通过 由 已 扩展 节点 组 成 的 closed 表 来 实现 的 。 
如 图 3-4 中 的 13 行 ， 选 择 了 一 个 路 径 ， 如 果 它 的 最 后 一 个 节点 在 closed 表 中 ， 那 么 这 条 
途径 就 该 删除 。 否 则 ,将 最 后 的 节点 加 到 closed 表 中 ， 算 法 会 继续 进行 。 

这 个 方法 不 一 定 保证 最 短 的 路 径 不 被 丢弃 。 可 能 要 更 复杂 的 方法 才能 保证 找到 最 优 
解 。 为 了 保证 搜索 算法 可 以 找到 至 目标 节点 最 低 花费 的 路 径 ， 应 当 遵 守 以 下 几 条 之 一 : 

。 保证 到 达 和 任何 节点 的 第 一 条 路 径 都 是 到 那个 点 的 最 低 花 费 路 径 ， 然 后 像 前 面 讨论 

过 的 那样 ， 前 枝 掉 所 有 随后 找到 的 到 那个 点 的 路 径 。 
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。 如 果 搜 索 算法 找到 比 已 经 找到 的 路 径 花 费 更 低 的 路 径 了 ， 那 么 它 就 可 以 将 所 有 较 
高 花费 的 路 径 删除 (因为 这 些 都 不 可 能 是 最 优 和 解 )。 也 就 是 说 ， 如 果 边 界 有 一 条 路 
径 在 路 径 4s，…，n，*…，m) 中 ， 当 发 现 到 的 路 径 p' 比 p 中 相应 部 分 更 近 ， 
IBA p 就 可 以 从 边界 中 删除 了 。 

。 无 论 何 时 ， 如 果 搜 索 中 找到 比 之 前 找到 的 路 径 花 费 更 低 的 至 某 点 的 路 径 ， 那么 就 
把 这 条 新 路 径 吸 收 到 已 扩展 路 径 的 初始 路 径 中 。 因 此 ， 如 果 有 路 径 p= 二 《5s，…， 
n，*…，m)， 一 个 到 的 更 短 的 路 径 p' 就 可 以 代替 到 的 路 径 p 的 初始 部 分 。 

这 些 方案 中 的 第 一 条 ， 人 允许 在 找到 最 优 解 的 保证 下 使 用 closed 表 。 其 他 则 需要 更 复杂 
的 算法 。 

在 最 低 花 费 优先 算法 中 ， 第 一 次 找到 的 到 某 一 个 节点 (如 ， 从 边界 中 选择 的 一 个 节点 ) 
的 路 径 ， 是 到 该 节点 的 最 低 花 费 路 径 。 删 除 随后 的 到 该 节点 的 路 径 不 会 移 除 最 低 花 费 的 那 
条 到 该 节点 的 路 径 ， 所 以 ， 剪 掉 随 后 的 路 径 仍然 可 以 保证 找到 最 优 解 。 

像 之 前 描述 的 一 样 ，A "算法 不 能 保证 到 某 点 第 一 次 选择 的 路 径 就 是 到 该 点 的 最 低 花 
费 路 径 。 注 意 到 ， 可 采纳 性 定理 保证 的 是 对 于 到 目标 节点 的 每 一 条 路 径 ， 而 不 是 每 一 条 路 
径 。 看 看 何 时 删除 到 一 个 节点 的 随后 路 径 会 删除 最 优 解 ， 假设 算法 选择 了 到 节点 并 的 路 径 
p 来 扩展 ,但 是 存在 一 个 到 节点 n 的 更 低 花 费 的 路 径 ， 而 这 条 路 径 还 没有 找到 。 那 么 ， 边 
界 中 就 应 该 有 路 径 p'， 它 是 较 低 花费 路 径 的 初始 部 分 。 猜 想 路 径 p' 在 节点 n' 结 束 。 则 一 
定 有 /(p) 三 f(p')， 因 为 p 是 在 p' 之 前 选择 的 。 这 就 是 说 : 

cost(p)+h(n)<cost(p') +h(n') 

如 果 经 过 p' 比 经 过 p 的 到 的 路 径 有 更 低 花 费 ， 则 

cost p )+dln ,wn)<cost(p) 

Fh. din’, MANGA nr' 到 节点 的 最 短路 径 的 实际 花费 。 从 上 面 两 个 等 式 ， 我 们 可 以 
得 出 : 

d(n' .n)<cost( p) —cost( p')<h(p')—h(p) = h(n’) —h(n) 

APSA) = ACh) —ACn) WE EB th A, ER on A 
n, ME [h(n Shn) | 三 d(n'，n)， 那 么 就 能 保证 找到 的 第 一 条 路 径 就 是 最 低 花费 路 
径 。 对 于 任意 两 个 节点 nHn, Xt A AY VA BR H (monotone restriction) # | h(n') —h(n) | < 
d(n'，n)。 也 就 是 说 ， 两 个 节点 的 启发 函数 值 的 差 必 须 小 于 或 等 于 两 点 最 低 花费 路 径 的 
实际 花费 。 例 如 ， 当 花费 函数 是 关于 距离 的 函数 时 ， 它 适用 于 两 点 之 间 的 欧 几 里 得 距离 
(在 nn 维 欧 几 里 得 空间 的 直线 距离 ) 的 启发 函数 。 它 也 适用 于 启发 函数 是 有 更 短 解 的 简化 
问题 的 解 。 


因为 单调 的 限制 ， 在 边界 ，f 值 是 单调 非 弟 减 函数 。 也 就 是 说 ， 随 着 边界 的 扩展 ，f 


值 不 会 变 小 。 因 此 ， 因 为 单调 的 限制 ，A* 算法 中 随后 的 到 任何 节点 的 路 径 都 可 以 删除 。 

多 路 径 剪 枝 包 含 环 检查 ， 因 为 环 是 到 某 个 节点 的 另外 一 条 路 径 ， 因 此 要 被 删除 掉 。 
如 果 图 是 显 式 存储 的 ， 通 过 在 每 个 节点 上 设置 一 个 比特 位 标明 已 被 找到 的 路 径 ， 多 路 径 
剪 枝 可 以 在 一 个 常数 时 间 内 完成 。 如 果 图 是 动态 生成 的 ， 通 过 存储 由 已 扩展 过 的 所 有 节 
点 组 成 的 closed 列表 ， 它 能 在 对 数 时 间 ( 只 要 进行 适当 索引 ， 可 与 已 扩展 的 节点 数量 成 
对 数 级 ) 完 成 。 多 路 径 剪 枝 优先 于 宽度 优先 的 环 检查 ， 因 为 宽度 优先 搜索 中 所 有 节点 被 
认为 必须 存储 。 然 而 ， 对 于 深度 优先 搜索 ， 算 法 并 不 是 存储 所 有 的 已 经 扩展 节点 。 存 储 
它们 会 使 这 个 方法 的 空间 旦 指数 增长 。 因 此 ， 对 于 深度 优先 搜索 ， 环 检查 优先 于 多 路 径 
剪 枝 。 
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3.7.3 迁 代 深化 


到 目前 为 止 ， 我 们 所 讨论 过 的 方法 中 ， 没 有 一 种 方法 是 理想 的 。 仅 有 的 能 保证 找到 路 径 
方法 需要 指数 空间 ( 见 图 3-9) 。 结 合 深度 优先 搜索 算法 的 空间 效率 和 宽度 优先 搜索 算法 的 最 
优 性 的 一 种 方法 是 迭代 深化 (iterative deepening) 。 这 种 方法 的 思想 是 重新 计算 边界 中 的 点 而 
不 是 储存 它们 。 每 一 次 重新 计算 的 过 程 都 是 深度 优先 搜索 ， 因 此 用 更 少 的 空间 。 

我 们 考虑 将 宽度 优先 搜索 融合 到 壬 代 深 化 搜索 。 由 仅 进 行 有 限 深度 搜索 的 搜索 器 来 进 
行 。 首 先 ， 通过 用 深度 为 1 的 方式 进行 深度 优先 搜索 ， 找 到 深度 为 1 的 深度 优先 方式 的 路 
径 。 然 后 找 深 度 为 2 的 路 径 ， 然 后 是 深度 为 3 的 路 劲 ， 依 次 进行 。 每 一 次 重新 计算 都 可 以 
删 掉 之 前 的 计算 并 再 次 启动 。 最 后 如 果 解 存在 就 可 以 找到 解 了 ， 因 为 它 是 按 顺 序列 举 路 
径 ， 所 以 第 一 个 找到 的 路 径 就 是 弧 线 最 少 的 。 

当 使 用 迭代 深化 搜索 时 ， 应 当 注 意 区 分 : 

。 因为 达到 深度 界限 的 失败 。 

。 还 未 到 达 深 度 界 限 的 失败 。 

对 于 第 二 种 情况 ， 搜 索 必 须 进行 更 深 界 限 的 搜索 。 对 于 第 二 种 情况 ， 重 新 进行 一 次 更 深 
界限 搜索 是 浪费 时 间 ， 因 为 不 管 多 深 ， 路 径 都 不 存在 。 我 们 称 这 种 到 达 了 深度 界限 的 失败 叫 
做 非 自 然 失 败 (failing unnaturally)， 未 到 达 深 
度 界限 的 失败 叫做 自然 失败 (failing naturally). 











l]; procedure [dSearch(G, s, goal) 


图 3-10 中 提出 一 种 迭代 深化 搜索 的 实现 
IdSearch。 局 部 程序 dbsearch 实现 了 一 个 深 
度 有 界 的 深度 优先 搜索 (使 用 递归 来 保持 堆 
栈 ) ， 可 以 限制 正在 搜索 的 路 径 长 度 。 它 使 用 
深度 优先 搜索 来 找到 所 有 长 度 为 十 b 的 路 
径 ， 其 中 , k 是 给 定 的 从 起 点 开始 的 路 径 长 
E, b 是 一 个 非 负 整数 。 和 迭代 深化 搜索 器 调用 
这 个 程序 来 增加 深度 界限 。 这 个 程序 发 现 的 
到 目标 节点 的 路 径 的 顺序 和 宽度 优先 算法 相 
同 。 作 为 一 种 通用 的 图 搜索 算法 ， 为 找到 更 
多 路 径 ， 在 22 行 的 return 之 后 ， 搜 索 能 从 
23 行 继 续 。 

只 要 宽度 优先 搜索 失败 ， 和 迭代 深化 搜索 
就 会 失败 。 当 需要 更 多 解 时 ， 即 使 在 后 续 的 
迭代 中 可 能 被 再 次 发 现 ， 每 一 个 成 功 路 径 也 
只 返回 一 次 。 通 过 跟踪 何 时 增加 界限 可 以 帮 
助 找到 解 能 使 搜索 终止 : 

。 如 果 深 度 搜 索 中 因为 到 达 了 深度 界限 

而 截断 了 ， 那 么 深度 界限 可 以 增加 。 
在 这 种 情况 下 ， 搜 索 就 非 自然 失败 了 。 
如 果 因 为 深度 界限 的 限制 而 没有 删除 
任何 路 径 ， 那么 搜索 就 自然 失败 了 。 
这 种 情况 下 ， 程序 终 止 ， 报 告 0 路 径 。 




























NO ote WwW th 


Inputs 
G: 具有 NN 个 节点 和 A 条 边 的 图 
s 开始 节点 的 集合 
goal; 关于 状态 的 布尔 函数 
Output 
从 s 到 goal 函数 值 为 真 的 节点 的 路 径 
或 者 如 果 没 有 这 样 的 路 径 则 上 
Local 
natural_failure; 布尔 型 
bound: 整 型 
procedure dbsearch( (zs, ***+ 
Inputs 
(mov ‘tt, ne): path 
b: integer, 620 
Output 
Bl Ae AR BE kto 的 路 径 
if p>0 then 
for each arc(n,, n) EA do 
dbsearch( no os 
else if goal(n,) then 


my)» b) 


return(n,, **s nè) 
else if 有 任意 邻居 then 
natural _ failure = false 
bound := 0 
repeat 
natural_failure = true 
dbsearch({(s) : s€S}, bound) 
bound :一 bound-1 
until natural_failure 
return | 


图 3-10 ARREK 





ms n), b—1) 
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。 搜索 只 报告 在 之 前 的 选 代 中 没有 报告 过 的 一 条 路 径 ， 因 此 ， 它 只 返回 那些 长 度 等 
于 深度 界限 的 路 径 

迭代 深化 搜索 的 最 明显 的 问题 是 每 一 步 的 计算 浪费 。 然 而 ， 这 可 能 不 像 某 些 人 想 的 那 
样 糟糕 ， 尤 其 是 当 分 支 系数 很 高 的 时 候 。 考 虑 下 面 算法 的 运行 时 间 。 假 定 一 个 常数 分 支 系 
数 5 二 1， 考 虑 界限 是 & WIR. MTR. AY 个 节点 ， 每 一 个 节点 被 生成 1 K. RE 
为 & 一 1 的 节点 被 生成 2 次 ， 那 些 深 度 为 & 一 2 的 节点 被 生成 3 次 ， 如 此 类 推 ， 然 后 深度 为 
1 的 节点 被 产生 & 次 。 因 此 ， 节 点 的 生成 总 数 是 : 

B+ 20! +368? +o +b 

=H (1+ 2b +362 +e +h) 


< bt ( ye ) 
i=! 


=o (4) 

ERE n 生成 节点 有 一 个 固定 的 开销 (5/(b 一 1))*， 当 6b 二 2 时 ,就 有 一 个 开销 系数 4， 
当 5 二 3 时， 有 开销 系数 2. 25 保证 边界 。 该 算法 是 O(5*)， 并 且 找 不 到 一 个 更 好 的 渐进 的 
无 信息 搜索 策略 。 注 意 到 ， 如 果 分 支 系 数 接近 1， 这 种 分 析 就 没有 用 (因为 分 母 趋 近 于 0)， 
见习 题 3. 9 。 

迭代 深化 也 可 以 用 于 A' 搜索 中 。 和 迭代 深化 A UDA ) 算 法 通过 重复 的 有 深度 界限 的 
深度 优先 搜索 来 进行 。 它 是 一 个 有 界 的 FCz) 的 值 ， 而 不 是 路 径 中 弧 的 数量 有 界 。 它 的 阔 
值 起 始 于 是 SO. Hp s 是 有 最 小 h 值 的 初始 节点 。 然 后 DA" 进行 深度 优先 的 深度 有 界 
搜索 ， 但 从 不 扩展 一 个 比 当前 的 界限 更 高 的 了 和 值 的 节点 。 如 果 深 度 有 界 的 搜索 非 自然 地 失 
败 了 ， 那 么 下 一 个 界限 就 是 超过 之 前 界限 的 最 小 的 了 值 。IDA* 就 如 A' 一 样 检 查 相同 的 节 
点 ， 但 用 深度 优先 搜索 重新 计算 它们 ， 而 不 是 存储 它们 。 


3.7.4 分 支 界限 法 


深度 优先 分 支 界限 (branch and bound) 搜 索 是 一 种 结合 了 深度 优先 搜索 算法 的 空间 节 
约 和 启发 信息 搜索 的 方法 。 它 特别 适用 于 存在 很 多 条 通 往 目标 节点 的 路 径 ， 我 们 需要 的 是 
BMRA. RHA BAR. 我们 假设 h(n) 小 于 或 等 于 从 nn 到 目标 节点 的 最 低 花 费 路 径 
的 花费 。 

深度 优先 分 支 界限 搜索 的 思想 是 保持 到 目标 最 低 花费 的 路 径 和 它 的 花费 ， 假 定 这 个 花 
费 是 有 界 的 。 如 果 搜 索 碰 到 路 径 p WE cost (p)+h(p)> bound, WA p 就 该 删除 掉 。 如 
果 找 到 没 被 删除 的 路 径 ， 那 么 这 条 路 径 一 定 优 于 之 前 最 好 的 路 径 。 这 个 新 解 被 记 住 ， 而 且 
界限 就 设置 成 这 个 新 解 的 花费 ， 然 后 寻找 更 好 的 解 。 

分 支 界限 搜索 生成 持续 优化 解 的 序列 。 一 有 旦 找到 一 个 解 ， 就 一 直 优 化 它 。 

分 支 界限 搜索 典型 地 用 于 深度 优先 搜索 ， 这 样 可 以 保持 深度 优先 的 节省 空间 的 优点 。 
它 和 深度 有 界 搜索 的 实现 方法 相似 ,但 是 这 里 的 界限 是 路 径 的 花费 ， 然 后 减少 花费 发 现 更 
短 的 路 径 。 算 法 会 记 住 所 发 现 的 花费 最 低 的 路 径 ， 当 搜索 完成 时 返回 这 条 路 径 。 

算法 见 图 3-11。 对 于 花费 有 界 搜索 ， 内 部 程序 cbsearch 使 用 全 局 变量 来 给 主 程序 提供 
信息 。 

最 初 ， 界 限 可 以 设 定 为 无 穷 大 ， 但 是 也 可 以 设置 一 个 高 估 的 值 ，porxrdo ， 作 为 最 优 路 
径 的 花费 ， 这 很 有 用 。 如 果 存 在 比 初始 花费 界限 bound, 更 低 的 路 径 ， 这 个 算法 会 返回 最 
优 解 ( 从 初始 节点 到 目标 节点 的 最 低 花 费 路 径 )。 
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l; procedure DF BranchAndBound(G, s, goal, h, bound,) 
2 Inputs 

3 G: HAN 个 节点 和 4 条 边 的 图 

4; s: 开始 节点 

5 goal, 节点 上 的 布尔 函数 

6 A: 节点 上 的 启发 函数 

7 bounds: 初始 化 深度 (如 果 没 有 指定 ， 可 以 是 0) 

8: Output 


10; 或 者 如 果 没 有 解 小 于 bound, . W 
11: Local 

12: best_path; 路径 或 上 

13 bound: 非 负 实 数 


14; procedure chsearch (ze ，… my)) 

15; if cost (nos st) mm) Th ns) <bound then 
16; if goal(n,) then 

17; best_path := (mos ++ n) 

18; bound := cast (ns, **, m)>) 

19: else 

20; for each arc (m, n)€ A do 

21; chsearch (lno, “ts ms n)) 





22; best_path = | 
23; bound ‘= bound, 
24; chsearch(<s)) 


9: 如 果 没 有 一 个 含有 = 的 解 小 于 bound。， 返 回 从 s 到 目标 节点 的 最 低 花费 的 路 径 





25: return best_path 


图 3-11 深度 优先 分 支 限 界 搜索 


如 果 初 始 界限 略 高 于 最 低 花 费 路 径 的 花费 ， 那 么 这 个 算法 不 需 扩 展 比 A 算法 更 多 的 
弧 就 可 以 找到 最 优 的 路 径 。 上 述 情 况 发 生 的 条 件 是 ， 算 法 将 那些 花费 比 最 低 花 费 高 的 任何 
路 径 都 剪 枝 ; 一 旦 它 发 现 一 个 通 往 目标 节点 的 路 径 ， 它 就 只 探索 那些 了 值 低 于 已 扩展 路 径 


的 路 径 。 而 这 些 正好 就 是 4 "找到 一 个 解 后 所 探索 的 路 径 。 


当 boundo =coff, WIRE 1, WAFER. 4 bound, 是 有 界 值 时 ， 返 回 | ， 表 示 
比 bound, 花费 少 的 解 不 存在 。 在 找到 解 或 者 已 知 解 不 存在 之 前 ， 这 个 算法 可 以 结合 迭代 


深化 算法 来 增加 界限 ， 见 习题 3. 13。 

【 例 3-17】 
1， 没有 启发 信息 ( 即 每 个 节点 的 
h(n) 二 0)。 在 算法 中 ,假设 depths = 
cc， 深度 优先 搜索 总 是 先 选择 最 左边 
的 后 继 节点 。 该 图 说 明了 检验 确定 节 
点 是 否 是 目标 节点 的 顺序 。 没 有 标 出 
序号 的 节点 是 未 检验 的 节点 。 

在 节点 5 下 面 的 子 树 形 图 中 ， 没 
有 目标 节点 、 被 完全 探索 完 ( 或 者 根据 
深度 的 有 限 值 depth, 进行 扩展 )。 被 检 
验 的 第 9 个 节点 是 目标 节点 。 它 有 一 
条 路 径 ， 其 花费 是 5， 所 以 界限 值 设 为 
5。 从 此 以 后 ， 只 有 长 度 小 于 5 的 路 径 
才能 作为 可 能 的 解 被 检验 。 第 15 个 被 





看 图 3-12 中 的 树 形 图 。 目 标 节点 被 涂 上 阴影 。 假 设 每 一 段 弧 线 的 长 度 为 





Q O 


图 3-12 在 深度 优先 分 支 限 界 搜索 中 所 扩展 的 节点 
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检验 的 节点 也 是 目标 节点 。 它 的 路 径 花费 是 3， 所 以 界限 减少 到 3。 再 没有 找到 其 他 的 目 

标 节点 ， 所 以 到 标号 15 的 那 条 路 径 返 回 ， 这 个 是 最 优 路 径 。 有 另外 一 条 最 优 路 径 被 前 枝 。 

算法 就 不 再 检验 标号 为 18 的 节点 的 后 继 节点 。 < 
如 果 有 启发 信息 ， 就 可 以 用 来 剪 枝 部 分 的 搜索 空间 ， 就 像 A` 算法 。 


3.7.5 搜索 方向 


在 有 限 无 信息 图 上 的 通用 搜索 算法 的 搜索 空间 大 小 是 上 *， 这 里 5 是 分 支 系数 , 有 是 路 
径 长 度 。 任 何 可 以 减少 5b 和 上 的 方法 都 可 能 会 节省 很 多 资源 。 

问题 求解 的 图 搜索 方法 的 抽象 定义 在 以 下 意义 上 是 对 称 的 ， 即 这 个 算法 可 以 从 初始 节 
点 开始 ， 向 前 搜索 目标 节点 ; 或 者 逆向 从 目标 节点 开始 ， 向 后 搜索 初始 节点 。 注 意 ， 目 标 
节点 的 许多 应 用 是 由 布尔 函数 隐 式 地 确定 ， 即 当 发 现 目标 节点 时 返回 true， 而 不 是 显 式 地 
返回 节点 集 ， 所 以 说 逆向 的 向 后 搜索 也 许 是 不 可 能 的 。 

对 于 那些 目标 节点 是 显 式 的 情况 ， 在 一 个 方向 上 搜索 可 能 比 另 一 个 方向 更 有 效 。 搜 索 
空间 的 大 小 与 分 支 系数 成 指数 增长 。 通 常情 况 下 ， 向 前 和 向 后 搜索 有 不 同 的 分 支 系数 。 向 
前 或 者 向 后 搜索 的 一 般 原 则 是 哪个 方向 有 较 小 的 分 支 系数 。 

下 面 讨 论 的 几 种 方法 对 于 搜索 空间 来 说 可 以 提高 效率 。 

1. 双向 搜索 

这 个 搜索 方法 的 思想 是 同时 从 起 始 节点 向 后 以 及 从 目标 节点 向 前 搜索 来 减少 搜索 时 
间 。 当 两 个 搜索 的 边界 相交 ， 这 个 算法 就 重 构 出 一 个 路 径 ， 它 从 起 始 节点 到 相交 的 边界 再 
到 目标 节点 。 

在 双向 搜索 中 产生 一 个 新 问题 ， 即 要 保证 两 个 搜索 的 边界 真正 相交 。 举 例 来 说 ， 在 两 
个 方向 上 的 深度 优先 搜索 不 一 定 能 够 很 好 地 起 作用 ， 因 为 它 可 能 会 因为 其 较 小 的 搜索 边界 
而 相互 错过 相交 。 在 两 个 方向 上 的 宽度 优先 搜索 可 以 保证 相交 。 

一 个 方向 深度 优先 搜索 结合 另 一 个 方向 宽度 优先 搜索 可 以 保证 所 需要 的 搜索 边界 的 相 
交 ， 但 是 在 哪个 方向 上 选择 用 哪 种 方法 很 困难 。 这 取决 于 宽度 优先 节省 的 花费 以 及 搜索 检 
查 深度 优先 搜索 何 时 与 其 元 素 相交 的 花费 。 

在 有 些 情况 下 ， 双 向 搜索 可 以 节省 很 多 。 例 如 ， 如 果 前 向 分 支 系 数 和 后 向 分 支 系 数 都 
Eb, 目标 节点 的 深度 是 k， 那 么 宽度 优先 搜索 花费 的 时 间 与 久 成 比例 ， 然 而 一 个 对 称 双 
向 搜索 花费 的 时 间 与 26“ 成 比例 。 即 使 时 间 复 杂 度 仍然 是 指数 级 ， 它 以 指数 函数 形式 节省 
时 间 。 注 意 ， 这 种 复杂 性 分 析 需 要 假设 找到 相交 点 是 无 需 代价 的 ， 在 很 多 应 用 中 这 种 假设 
可 能 不 成 立 ( 见 习题 3. 10) 。 

2. 岛 驱动 搜索 

一 种 使 搜索 更 有 效 的 方式 是 找到 有 限 的 向 前 和 向 后 搜索 可 以 相交 的 地 方 ， 例 如 ， 找 到 
不 同 楼 层 的 两 间 房 间 之 间 的 通路 ， 合 适 的 搜索 限制 可 能 是 先 去 其 中 一 个 楼 层 的 电梯 ， 然 后 
到 目标 楼 层 的 那个 电梯 。 直 觉 上 ， 这 些 指定 的 位 置 在 搜索 图 上 就 像 一 些 岛 (island)， 它们 
被 限定 在 从 起 始 节点 到 目标 节点 的 解 路 径 上 。 

当 岛 确定 了 ，Agent 可 以 将 一 个 搜索 问题 分 解 为 几 个 子 问 题 , 例如， 一 个 从 初始 房间 
到 电梯 ， 一 个 从 某 一 层 的 电梯 到 另外 一 层 的 电梯 ， 一 个 从 电梯 到 目标 房间 。 通 过 三 个 更 简 
单 的 问题 求解 就 缩小 了 搜索 空间 。 这 些 更 小 问题 减少 了 大 搜索 的 组 合 爆炸 ， 这 也 是 个 很 好 
的 例子 ， 说 明了 问题 的 额外 信息 如 何 提高 搜索 的 效率 。 

为 使 用 岛 来 找到 * Me 之 间 的 一 条 路 径 ， 需 要 : 


101 


102 


66 ”第 二 部 分 表达 和 推理 


1) 确定 一 系列 的 岛 ios tts dng 

2) 找到 从 到 io， A ij— Bll iG 为 1] ~—k), MM ia 到 g 的 路 径 。 

每 一 个 搜索 问题 应 该 比 总 的 问题 更 简单 ， 因 此 更 容易 解决 。 

岛 的 识别 可 能 是 我 们 从 图 中 无 法 获得 的 额外 信息 。 使 用 不 适当 的 岛 可 能 使 问题 更 复杂 
(甚至 不 可 解决 )。 通 过 选择 不 同 岛 集 ， 我 们 可 以 将 问题 分 解 为 另外 一 组 子 问题 ， 并 通过 可 
能 的 岛 空 间 进 行 搜索 。 在 实际 使 用 中 是 否 适 用 取决 于 问题 的 细节 。 

3. 抽象 层次 搜索 

岛 的 概念 可 以 用 来 定义 在 细节 上 的 多 个 层次 或 者 抽象 的 多 个 层次 上 所 使 用 的 问题 求解 
策略 。 
抽象 层次 上 的 搜索 的 思想 首先 涉及 问题 的 抽象 ， 尽 可 能 去 掉 细 节 。 我 们 可 能 找到 问题 
的 部 分 解 : 它 的 解 需要 进一步 的 细节 。 例 如 ， 从 一 个 房间 到 另 一 个 房间 的 问题 ， 需 要 使 用 
多 次 转身 ， 但 是 Agent 喜欢 从 一 个 抽象 层次 推理 问题 ， 其 中 实际 转向 的 细节 被 省 略 了 。 我 
们 期 望 适当 的 抽象 解决 能 从 广义 角度 解决 问题 ， 只 剩 下 一 些小 问题 还 需要 解决 。 像 传递 机 
器 人 的 路 径 规 划 问 题 ， 不 省 略 细节 的 搜索 求解 很 困难 ， 除 非 必 须 考虑 它们 。 

这 种 方法 的 实现 可 以 通过 岛 驱动 搜索 找到 可 能 的 岛 。 一 旦 在 岛 层次 上 找到 一 个 解 ， 子 
问题 就 可 以 同样 的 方式 通过 递归 解决 了 。 在 低层 次 发 现 的 信息 可 以 通知 高 层次 ， 其 中 的 某 
些 可 能 解 不 如 期 望 的 那么 好 。 高 层次 可 以 使 用 这 些 信息 重新 规划 ， 这 个 过 程 通常 不 能 保证 
最 优 解 ， 因 为 它 只 考虑 一 些 高 层次 的 分 解 。 

在 抽象 层次 的 搜索 很 大 程度 上 取决 去 怎样 分 解 和 抽象 要 解决 的 问题 。 一 旦 问题 被 抽象 
和 分 解 出 来 ， 任 何 搜索 方法 都 能 用 来 解决 它们 。 然 而 ， 识别 有 用 的 抽象 和 问题 分 解 并 不 
容易 。 


3.7.6 动态 规划 法 


动态 规划 法 是 最 优化 的 一 般 方法 ， 它 可 以 存储 问题 的 部 分 解 ， 所 以 对 于 已 经 发 现 的 解 
可 以 检索 而 不 必 重 新 计算 。 动 态 规划 算法 的 使 用 贯穿 人 工 智 能 。 

动态 规划 算法 可 以 用 来 在 图 中 找到 路 径 。 直 觉 上 ， 图 搜索 中 的 动态 规划 (dynamic pro- 
gramming) 可 以 被 看 做 用 来 构造 完美 的 启发 函数 使 得 A" 可 以 保证 找到 解 ， 即 使 它 只 有 边 
界 的 一 个 元 素 。cost_to_goal 函数 表示 每 个 节点 到 目标 节点 的 最 低 花 费 路 径 的 准确 花费 。 

KÆ (policy) HK EMEP WAS ERI. cost_to_goal 函数 可 以 离线 计算 ， 用 来 
建立 最 优 的 政策 。Agent 可 以 利用 这 个 政策 在 线 决 定 在 这 个 节点 做 什么 。 

令 cost_to_goal(n) 是 从 nn 到 目标 节点 的 最 低 花 费 路 径 的 实际 花费 。cost_to_goal(n) 函 
数 可 以 定义 为 : 

如 果 是 is_goal(n) 

ost ia giak = Minen mea (cost ({n,m)) + cost_to_goal(m)) 其 他 

一 般 的 思想 是 从 目标 节点 开始 ， 建 立 一 个 表 存 放 每 一 个 节点 的 cost_to_goal(n) 值 。 这 
可 以 通过 多 路 径 剪 枝 的 最 低 花 费 优 先 搜索 来 实现 ， 它 从 目标 节点 开始 在 反 向 图 (将 图 中 所 
有 弧 的 方向 反 过 来 ) 中 搜索 。 对 于 已 发 现 的 每 个 节点 ,动态 规划 算法 记录 其 cost_to_goal 
值 ， 而 不 是 有 一 个 需 搜索 的 目标 。 使 用 反 向 图 计算 每 个 节点 到 目标 节点 的 花费 ， 而 不 是 从 
目标 到 每 个 节点 。 实 质 上 ， 动态 规划 从 目标 节点 进行 逆向 搜索 ， 它 通过 建立 从 图 中 每 个 节 
点 到 目标 节点 的 最 低 花 费 路 径 来 完成 。 

对 于 一 个 特定 的 目标 ,， 一旦 每 个 节点 的 cost_to_goal 值 记录 下 来 ，Agent 就 可 以 根据 
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这 个 值 来 决定 最 优 路 径 的 下 一 段 弧 。 从 节点 nn 应 该 选择 这 样 的 邻 届 mx， 它 有 costa, m)) 
十 cost_to_goal(m) 的 最 小 值 。 遵 循 这 个 政策 ，Agent 就 能 沿 着 最 低 花费 路 径 从 任意 节点 直 
到 目标 。 假 设 每 个 节点 有 有 限 邻 居 ， 给 定 cost_to_goal, 决定 哪 段 弧 是 最 优 的 需要 常数 时 
间 ， 该 常数 与 图 的 大 小 有 关 。 动 态 规 划 法 建立 cost_to_goal 表 所 需要 的 时 间 和 空间 与 图 的 
大 小 呈 线 性 关系 。 

动态 规划 算法 在 下 面条 件 下 是 有 用 的 : 

。 目标 节点 是 显 式 的 (之 前 的 方法 只 假设 一 个 函数 来 识别 目标 节点 ); 

。 需要 一 个 最 低 花费 路 径 ; 

。 图 是 有 限 的 和 足够 小 的 ， 能 够 存储 每 一 个 节点 的 cost_to_goal 值 ; 

。 目标 不 经 常 变化 ; 

。 政策 对 于 每 个 目标 可 以 使 用 多 次 ， 产生 cost_to_goal 值 的 花费 可 以 分 挫 到 很 多 实例 

问题 上 。 

动态 规划 搜索 的 主要 问题 是 : 

。 只 有 当 图 有 限 ， 而 且 表 能 小 到 适应 于 内 存 时 ， 这 个 方法 才 有 效 。 

> 对 于 每 一 个 不 同 的 目标 ，Agent 必须 重新 计算 政策 。 

。 需要 的 时 间 空 间 线 性 于 图 的 大 小 ， 对 于 有 限 的 图 来 说 ， 图 的 大 小 通常 是 路 径 长 度 

的 指数 形式 。 

【 例 3-18) 对 于 图 3-2， 从 r123 到 目标 节点 的 花费 是 0， 因 此 

cost_to_goal (r123) = 0 

继续 从 r123 使 用 最 低 花费 优先 搜索 

cost_to_goal (0123) = 4 

cost_to_goal (0119) = 13 

cost_to_goal (0109) = 29 

cost_to_goal (b4) = 36 

cost_to_goal (62) = 39 

cost_to_goal (0103) = 41 

cost_to_goal (63) = 43 

cost_to_goal (61) = 45 

到 这 个 阶段 向 后 搜索 停止 了 。 这 里 注意 两 点 : 首先 ， 如 果 一 个 节点 没有 cost_to_goal 
值 ， 那 么 不 存在 从 该 节点 到 目标 节点 的 路 径 ; 其 次 ，Agent 可 以 很 快 地 确定 任意 一 个 节点 
到 目标 节点 的 最 低 花费 值 路 径 的 下 一 段 弧 。 例 如 ， 如 果 Agent Æ o103， 决 定 到 r123 的 最 
低 花费 路 径 ， 需 要 比较 4 十 43( 通 过 53 的 花费 ) 和 12 十 29( 直 接 到 0109 的 花费 )， 可 以 很 快 
决定 去 0109, | a 

当 建 立 cost_to_goal 函数 时 ， 搜 索 者 会 隐 式 地 决定 选择 哪个 邻居 到 达 目 标 ， 它 不 是 在 
运行 时 就 确定 哪个 邻居 在 最 优 路 径 上 ， 而 是 储存 该 信息 。 

动态 规划 搜索 可 以 用 来 为 A 算法 和 分 支 界限 算法 建构 启发 信息 。 构 建 启发 函数 的 一 
种 方式 是 简化 问题 (如 去 掉 一 些 细节 )， 直 到 被 简化 的 问题 有 一 个 足够 小 的 状态 空间 。 动 态 
规划 算法 可 以 用 来 在 简化 了 的 问题 中 找到 最 优 的 路 径 。 这 个 信息 也 可 以 用 来 作为 原始 问题 
的 启发 信息 。 


A' 算法 的 最 优 性 
对 于 一 个 搜索 算法 ， 如 果 不 存 在 能 使 用 更 少 的 时 间或 空间 或 扩展 更 少 的 节点 的 其 他 算 
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法 ， 同 时 保证 解 的 质量 ， 那 么 这 个 算法 就 是 最 优 的 (optimal)。 最 优 搜索 算法 每 次 都 会 选择 
正确 的 节点 。 然 而 ， 因 为 我 们 不 能 直接 实现 它 ， 所 以 这 个 算法 的 详细 说 明 并 不 有 效 。 这 样 
一 个 算法 是 否 能 实现 是 一 个 开放 问题 (就 像 是 否 P 二 NP)。 然 而 ， 似乎 有 一 个 能 被 证 明 的 
陈述 。 

A` 的 最 优 性 (optimality of A' ): 在 只 使 用 弧 花 费 和 从 起 始 节点 到 目标 节点 花费 的 筷 
发 式 估计 的 搜索 算法 中 ,没有 算法 能 比 A' 算法 扩展 更 少 的 节点 并 保证 能 找到 最 低 花 费 
路 径 。 l 

证 明 概 述 : 除非 算法 扩展 了 每 一 个 路 径 p， 这 里 f(p) 低 于 最 优 路 径 的 花费 ， 否则 只 给 
定 弧 线 花费 以 及 启发 信息 ， 我 们 不 知道 p 是 否 是 一 条 最 低 花 费 的 路 径 。 更 正式 地 ， 假 设 一 
个 算法 A 找到 了 问题 尸 的 解 ， 这 里 某 些 路 径 妃 没有 扩展 ， 这 样 f(p) 小 于 找到 的 解 。 假 设 
有 另 一 个 问题 P ， 除 了 有 一 条 花费 为 (Pp) 的 通过 pp 的 路 径 ， 其 他 与 问题 P 一样。 算法 A' 
不 能 分 辩 P 和 已 ,因为 它 不 扩展 路 径 户 ， 所 以 它 对 问题 P' 会 返回 和 PP 一 样 的 解 ， 但 是 对 
于 PP 找到 的 解 对 于 P' 来 说 不 是 最 优 解 ， 因 为 这 个 解 比 经 过 记 的 路 径 有 更 高 的 花费 。 因 此 ， 
算法 不 能 保证 找到 最 低 花 费 的 路 径 ， 除 非 它 找 到 所 有 的 f 值 比 最 优 路 径 低 的 路 径 ， 这 样 就 
必须 找到 A" 所 找到 的 所 有 的 路 径 。 

反例 : 尽管 这 个 证 明 似 乎 合理 ， 但 是 有 的 算法 扩展 更 少 的 节点 。 考 虑 一 个 算法 ， 它 使 
ARA 算法 的 向 前 搜索 以 及 向 后 的 动态 规划 搜索 方法 ， 这 两 种 方法 在 某 些 方面 是 交 又 进 
行 的 (例如 ， 向 前 和 向 后 交叉 进行 )。 向 后 的 搜索 会 建立 一 个 表 : cosi_to_goal(n)， 指 的 是 
从 nn 到 目标 节点 的 实际 花费 ， 它 有 边界 值 b， 它 已 经 扩展 了 所 有 到 目标 花费 低 于 6 的 路 径 。 
向 前 搜索 使 用 cost(p) 十 cl(n) 上 的 优先 级 队列 ， 这 里 nn 是 路 径 p 的 最 后 一 个 节点 ， 如 果 这 
个 值 已 经 算出 cl(n) 是 cost_to_goalln), Ei] c(a) maxrlhln), b), EXE, mR ARB 
的 最 后 一 个 节点 pp 到 目标 节点 存在 路 径 ， 或 者 它 使 用 向 后 搜索 已 经 扩展 的 路 径 ， 或 者 使 用 
花费 至 少 为 6 的 路 径 。 这 个 算法 保证 能 找到 最 低 花 费 的 路 径 ， TRLA 更 少 的 节点 (见习 
题 3.11). 

BS: 上 面 的 反例 似乎 意味 着 A 的 最 优 性 是 错误 的 。 然 而 ， 证明 也 有 一 定 的 吸引 力 ， 
这 不 应 被 彻底 忽视 。A "不 是 所 有 算法 中 最 优 的 ， 但 是 对 于 所 有 向 前 搜索 的 方法 ， 这 个 证 
明 似 乎 是 正确 的 (见习 题 3. 12) 。 


3.8 本 章 小 结 


， 许多 实际 问题 可 以 抽象 为 在 图 中 进行 路 径 搜 索 的 问题 。 

。 宽度 优先 搜索 和 深度 优先 搜索 可 以 在 没有 任何 图 以 外 的 额外 信息 的 情况 下 通过 图 来 找到 路 径 。 

*。 A‘ 搜索 可 以 使 用 启发 函数 ,来 估计 从 一 个 节点 到 目标 节点 的 花费 。 如 果 这 个 估计 低 于 实际 花费 ， 
A“ 能 保证 找到 最 低 花费 路 径 。 

* 和 迭代 深化 搜索 和 深度 优先 分 支 界 限 搜索 可 以 用 来 找到 最 低 花费 路 径 ， 且 能 比 像 A" 之 类 的 算法 节 
省 更 多 的 内 存 ， 因 为 A 算法 会 储存 多 条 路 径 。 

。 当 图 很 小 的 时 候 ， 动 态 规划 搜索 可 以 用 来 纪录 从 每 一 个 节点 到 目标 节点 的 最 低 花费 路 径 的 实际 花 
Bt. 这 可 以 用 来 找到 最 优 路 径 的 下 一 段 弧 。 


3.9 参考 文献 及 进一步 阅读 


在 运筹 学 研究 、 计 算 机 科学 、 人 工 智 能 等 领域 有 很 多 有 关 搜 索 技 术 的 文献 。 搜 索 早期 被 认为 是 人 工 
智能 基础 。 人 工 智能 强调 启发 式 搜索 。 
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基础 的 搜索 算法 讨论 可 参考 Nilsson[ 1971]。Pearl[1984] 中 有 详细 的 启发 式 搜 索 方法 。Hart、Nilsson 
和 RaphaelL1968] 中 有 A 算法 的 进一步 探讨 。 

KorfL1985] 中 有 关于 深度 优先 迭代 深化 搜索 的 描述 。 

分 支 界限 搜索 方法 在 运筹 学 研究 中 有 进一步 探讨 ， 在 Lawler 和 Wood[1966] 中 有 描述 。 

动态 规划 算法 是 一 种 通用 算法 ， 在 本 书 的 其 他 部 分 作为 双重 搜索 方法 。 这 种 特殊 算法 是 Dijkstra 
[1959] 最 先 提出 的 。Cormen、Leiserson、Rivest 和 Stein[ 2001] 有 关于 动态 规划 这 类 算法 的 更 多 详细 
介绍 。 

Culberson 和 Schaeffer[ 1998] 首 先 提出 使 用 动态 规划 算法 作为 A" 搜索 的 启发 信息 这 一 思想 。Felner、 
Korf 和 Hanan[2004] 有 更 深入 的 介绍 。 

Minsky[1961] 讨 论 了 岛 算法 和 问题 简化 思想 。 


3.10 “习题 


3.1 评论 下 面 的 话 ， 人 工 智能 的 一 个 主要 目标 是 为 图 搜索 问题 建立 一 般 的 启发 信息 。 
3.2 在 边界 中 的 任 一 元 素 被 选中 这 一 方面 来 说 ， 哪 一 种 路 径 搜索 程序 是 公平 的 ? 在 没有 环 路 的 有 限 图 ， 
或 者 有 环 路 的 有 限 图 ， 或 者 无 限 图 (有 有 限 的 分 支 元 素 ) 中 考虑 这 个 问题 。 
3.3 看 图 3-13 的 在 网 格 中 寻找 路 径 的 问题 ， 要 找 的 是 从 s 到 g 的 路 径 。 可 以 在 水 平方 向 和 竖 直 方向 上 移 
动 ， 一 次 只 能 一 个 方向 。 阴 影 部 分 表示 禁止 移动 。 
(a) 在 图 3-13 的 网 格 中 ,为 从 s 到 g 的 深度 优先 搜索 的 路 径 上 各 个 扩 
展 的 节点 标号 。 操 作 的 顺序 是 上 、 左 、 在 、 下 。 假 设 有 循环 检查 。 一 一 一 
(b) 对 于 同样 的 网 格 ， 标 号 扩展 的 节点 ， 是 为 了 得 到 从 s 到 g 的 最 优 Tiekie | | 
- 优先 搜索 解 。 曼 哈 顿 距离 应 当 作 为 评价 函数 。 曼 哈 顿 距离 是 两 点 
的 工 轴 方 向 上 的 距离 加 上 y 轴 方 向 上 的 距离 。 它 对 应 的 是 在 网 格 
中 沿 着 城市 旅游 。 假 设 有 多 路 径 剪 枝 ， 那 么 发 现 的 第 一 条 路 径 是 一 
tal Sree 
O 对 于 同样 的 网 格 ， 标 号 扩展 的 节点 ， 是 为 了 得 到 从 s 到 g 的 启发 | | | | | | | | 
式 深 度 优先 搜索 解 。 曼 哈 顿 距离 作为 评价 函数 。 假 设 存 在 路 径 循 
环 检查 ， 那 么 找到 的 路 径 是 什么 ? 图 3-13 一 个 格 搜索 问题 
d AA 搜索 方法 标号 节点 的 顺序 ， 使 用 多 路 径 剪 枝 ， 找 到 的 路 径 是 什么 ? 
(e) 描述 用 动态 规划 算法 如 何 解决 相同 问题 。 给 出 每 个 节点 的 dist 值 ， 描 述 找 到 的 路 径 。 
(f) 按照 经 验 ， 哪 种 搜索 方法 最 适合 这 个 问题 ? 
(g) 假设 图 在 各 个 方向 上 延伸 。 也 就 是 说 ,这 个 图 没有 界限 ， 但 是 ;s、g 和 那些 阴影 障碍 物 都 在 相 
同 的 地 方 。 用 哪 种 方法 会 找 不 到 路 径 ? 哪 种 是 最 好 的 方法 ?为 什么 ? | 
3.4 问题 是 使 用 图 搜索 来 设计 视频 演示 。 假 设 存 在 一 个 视频 片段 的 数据 库 ， 还 有 它 的 时 间 长 度 和 主题 ， 
如 下 : 





片段 长 度 包含 的 主题 
seg0 10 [welcome | 
seg] 30 (skiing, views] 
seg2 50 [ welcome, artificial_intelligence, robots] 
seg3 40 [graphics, dragons] 
seg4 50 [skiing, robots] 
假设 一 个 节点 包含 一 对 元 素 : 
(To_Cover, Segs) 
这 里 Segs 是 必须 要 表示 出 来 的 一 个 列表 ，To_Cover 也 是 必须 表示 的 一 系列 主题 。 假 设 没 有 列表 包 
含 任 何 一 个 To_Cover。 
节点 的 邻居 通过 To_Cover 进行 选择 。 对 于 每 一 个 列表 有 邻居 包含 已 经 选择 的 主题 。( 这 部 分 作 
用 是 要 考虑 这 些 相 邻 点 的 确切 结构 -) 
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例如 ， 给 出 上 述 数 据 库 ， 节 点 ([rwelcome，robots]，[J]) 的 邻居 是 4[]，[Lseg2]》 和 《[robots]， 

[seg0])， 假 设 选择 了 welcome, 
因此 ， 每 一 个 弧 线 添加 一 段 ,但 是 可 以 包含 一 个 或 多 个 主题 。 假 设 弧 线 的 成 本 等 于 片段 添加 的 

时 间 。 
目标 是 设计 一 个 描述 ， 包 含 了 MustCover 所 有 的 主题 。 起 始 节 点 是 (MustCover，[]》， 目 标 节 

点 是 ([]，Presentation);。 从 起 始 节点 到 目标 节点 的 花费 值 是 这 个 描述 的 时 间 。 因 此 ， 最 优 的 描述 

是 包含 了 JjMustCover 所 有 的 主题 的 最 短 的 描述 。 

(a) 假设 目标 包含 了 所 有 主题 [welcome，skiing，robots]。 假 设 算法 总 是 选择 每 个 节点 最 左边 的 主 
题 为 其 查找 邻居 。 画 出 最 低 花费 优先 算法 所 有 扩展 的 节点 直到 找到 最 终 的 解 。 这 就 会 显示 所 有 
扩展 的 节点 ， 到 找到 目标 节点 时 ， 边 界 就 会 出 现 。 

(b) 给 定 一 个 非 平凡 的 启发 函数 h， 它 是 实际 花费 的 低估 值 。( 注 意 对 于 所 有 的 节点 h(n) 二 0 是 平凡 
的 启发 函数 .) 它 满足 启发 函数 的 单调 性 质 吗 ? 

画 出 两 个 不 同 的 图 ， 标 出 初始 节点 和 目标 节点 ， 其 中 一 个 图 表示 向 前 搜索 比 向 后 搜索 好 ， 另 外 一 个 

图 表示 向 后 搜索 比 向 前 搜索 好 。 

实现 迭代 深化 A" 算法 。 基 于 图 3-10 中 的 近代 深化 搜索 方法 。 

假设 我 们 要 找 一 个 从 初始 节点 到 目标 节点 的 路 径 ， 不 是 寻找 最 优 路 径 ， 而 是 寻找 花费 值 比 最 低 花 费 

多 10% 的 路 径 。 建 议和 迭代 深化 A" 算法 的 替代 方法 可 以 得 到 解 。 为 什么 这 有 利于 选 代 深 化 A" 搜索 ? 

如 何 修改 深度 优先 分 支 界限 搜索 方法 ， 来 找到 花费 值 比 最 低 花费 多 10% 的 路 径 。 这 个 算法 与 上 面 

一 题 中 的 A* 算法 的 优化 方案 相 比 怎么 样 ? 

对 于 和 迭代 深化 搜索 的 分 母 g 一 1， 当 81 时 ， 这 就 不 是 一 个 很 好 的 近似 。 给 出 一 个 当 5 一 1 时 更 好 的 

迭代 深度 复杂 性 的 估计 。 这 一 章 中 其 他 算法 的 复杂 度 怎么 算 ? 提示 : 分 支 系数 越 接近 1, BRR 

的 分 母 越 小 。 


3. 10 ”双向 搜索 必须 确保 何 时 两 个 边界 相交 。 为 下 面 每 个 决定 确定 何 时 相交 : 


(a) 宽度 优先 搜索 和 深度 界限 深度 优先 搜索 。 
(Cb) 和 迭代 深化 搜索 和 深度 界限 深度 优先 搜索 。 
(c) A' 算法 和 深度 界限 深度 界限 搜索 。 

d A 算法 和 A" 算法。 

1 考虑 前 面 3.7.6 节 中 “A'* 算 法 的 最 优 性 ”处 讨论 的 反例 的 算法 ， 回 答 : 
(a) 什么 时 候 算 法 停止 ?提示 : 到 向 前 搜索 找到 目标 ， 算 法 才 会 停止 。) 
Cb) 应 该 保留 什么 样 的 数据 结构 ? 

(c) 完整 的 描述 算法 。 
(d) 描述 怎么 样 找 到 最 优 路 径 。 
Ce) 给 出 一 个 例子 说 明 它 扩展 了 比 A* 少 ( 多 ) 的 节点 。 


3.12 RRA 算法 的 最 优 性 ， 对 于 指定 算法 的 种 类 ，A" 是 最 优 的 。 给 出 证 明 。 
3. 13 图 3-11 中 深度 优先 分 支 界限 搜索 方法 类 似 于 深度 界限 搜索 。 因 为 它们 都 是 如 果 花 费 低 于 界限 值 


时 ， 只 找到 一 条 解 路 径 。 对 于 一 个 特定 的 深度 界限 ， 如 果 没 有 解 ， 它 是 怎样 结合 迭代 深化 搜索 来 
增加 深度 界限 的 ? 如 果 没 有 解 ， 在 有 限 图 中 ， 算 法 会 返回 一 个 上 。 算 法 应 当 允 许 界限 任意 增加 ， 
然后 当 解 存在 时 ， 返 回 最 优 (最 低 花费 ) 的 路 径 。 
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特征 和 约束 





每 项 任务 都 会 有 其 约束 的 一 面 ， 要 想 毫 无 怨言 地 解决 问题 ， 需 要 依靠 一 些 神 奇 的 连接 
和 链条 来 松弛 僵化 的 大 脑 。 虽 然 它 们 限定 了 条 条 框框 ， 却 又 神奇 地 解放 了 思维 。 


James Falen 





根据 特征 来 描述 状态 ， 然 后 基于 这 些 特征 进行 推理 ， 这 种 推理 方式 一 般 情况 下 会 比 用 
状态 显 式 推 理 获 得 更 好 的 效果 。 通 常 这 些 特 征 是 非 独立 的 ， 并 且 存 在 硬 约 束 (hard 
constraint) ， 这 些 硬 约束 指定 了 变量 赋值 的 合法 组 合 。 正 如 Falen 在 诗 中 强调 ， 发 现 并 利 
用 这 些 约 束 去 解决 问题 。 在 规划 和 调度 问题 中 常常 有 这 类 范例 ， 例 如 智能 体 (Agent) 必 须 
为 每 个 确定 执行 的 动作 分 配 一 个 时 间 ， 在 这 些 被 执行 的 动作 中 则 存在 时 间 上 的 约束 ， 并 且 
这 些 约束 说 明了 多 个 动作 必须 完成 一 个 实际 目标 。 除 硬 约 束 外 ， 也 存在 软 约束 (soft 
constraint) ， 这 些 软 约束 可 以 指定 一 些 具体 的 偏好 值 。 本 章 将 说 明 如 何 生成 满足 硬 约束 的 
赋值 和 如 何 最 优化 一 个 软 约束 集合 。 


4.1 特征 和 状态 


任何 实际 问题 都 可 能 存在 大 量 的 状态 ， 所 以 Agent 不 能 根据 其 状态 进行 推理 。 而 且 ， 
大 多 数 问题 不 会 配备 一 个 明确 的 状态 列表 ， 这 些 状态 往往 是 由 一 些 隐 含 的 特征 (feature) 所 
描述 。 当 描述 一 个 真实 的 状态 空间 时 ,通常 是 描述 组 成 状态 的 特征 ， 而 不 是 直接 枚 举 各 个 
状态 。 

特征 和 状态 的 定义 是 交织 关联 的 ， 因 此 可 以 通过 其 中 一 个 对 另 一 个 进行 描述 性 的 
定义 。 

。 根据 特征 ， 状 态 可 以 被 定义 为 : 特征 作为 基 元 ， 一 个 状态 则 对 应 了 每 一 个 特征 的 

一 种 赋值 。 
。 根据 状态 ， 特 征 可 以 被 定义 为 : 状态 作为 基 元 , 一 个 特征 是 状态 构成 的 一 个 函数 。 
对 于 给 定 的 状态 ， 函 数 返 回 该 状态 下 的 特征 值 。 

每 一 个 特征 都 有 一 个 域 (domain) ， 这 个 域 是 它 可 取 值 的 集合 。 特 征 的 域 就 是 在 全 体 状 
态 下 函数 的 值 域 。 

【 例 4-1〗 在 图 1-8 的 电气 环境 中 ， 每 一 个 形容 上 、 下 的 开关 位 置 都 有 可 能 被 看 做 是 
一 个 特征 。 每 一 个 形容 灯泡 亮 或 灭 的 灯泡 位 置 也 有 可 能 被 看 做 是 一 个 特征 。 每 一 个 说 明 其 
正常 工作 还 是 中 断 的 组 件 都 可 以 被 看 做 是 一 个 特征 。 一 个 状态 包含 了 每 个 开关 的 位 置 、 每 
个 设备 的 情况 ， 等 等 。 

如 果 将 特征 作为 基 元 ， 一 个 状态 就 是 为 每 个 特征 赋值 。 例 如 ， 一 个 状态 可 以 被 这 样 描 
R: 开关 1 置 上 ， 开 关 2 置 下 ， 保 险 丝 1 正常 ， 导 线 3 中 断 ， 等 等 。 

如 果 将 状态 看 成 基 元 ， 函 数 可 以 举例 为 开关 1 位 置 。 这 个 位 置 是 一 个 状态 函数 ， 在 某 
些 状 态 下 它 处 于 置 上 ， 其 余 的 状态 下 它 处 于 置 下 。 < 

根据 特征 进行 推理 的 主要 的 优势 在 于 节省 了 计算 量 。 例 如 ， 一 个 二 元 特征 (binary 


72 ”第 二 部 分 表达 和 推理 


feature) 的 域 有 两 个 取 值 ， 那 么 由 少量 的 特征 就 能 产生 大 量 的 状态 , 

。 10 个 二 元 特征 可 以 表示 2" =1 024 个 状态 。 

。 20 个 二 元 特征 可 以 表示 22 王 1 048 576 个 状态 。 

。 30 个 二 元 特征 可 以 表示 2° =1 073 741 824 个 状态 。 

。 100 个 二 元 特征 可 以 表示 2'°° =1 267 650 600 228 229 401 496 703 205 306 个 状态 。 

根据 30 个 特征 进行 推理 要 比 根据 超过 10 亿 个 状态 推理 简单 得 多 。100 个 特征 不 算 多 ， 
但 是 要 是 用 2 个 状态 进行 推理 很 明显 是 不 可 能 的 。 很 多 问题 都 有 数 千 或 者 数 百 万 的 特征 
(这 种 情况 ， 用 状态 推理 更 是 不 可 能 的 )。 

通常 特征 是 非 独立 的 ， 因 为 在 不 同 特征 的 取 值 上 可 能 存在 约束 。 考 虑 给 定 的 特征 和 约 
束 来 确定 可 能 的 状态 成 为 一 个 重要 问题 。 


4.2 可 能 世界 、 变 量 和 约束 


为 了 保持 形式 上 的 简化 和 通用 ,在 展开 特征 的 概念 中 没有 明确 地 考虑 时 间 ( 约 束 )。 本 
节 将 根据 可 能 世界 的 概念 来 描述 约束 满足 问题 。 

不 更 改建 模 的 情况 下 ， 在 变量 和 特征 中 存在 一 对 一 的 直接 对 应 ， 这 种 对 应 同样 存在 于 
状态 和 可 能 世界 之 间 。 

可 能 世界 (possible world) 是 世界 (真实 世界 或 虚幻 世界 ) 存 在 的 一 种 可 能 方式 。 例 如 ， 
当 表 述 一 个 填 字 游戏 时 ， 可 能 世界 则 对 应 了 填 字 游戏 被 填写 的 方式 。 在 电气 环境 中 ， 可 能 
世界 则 是 指 每 个 开关 的 位 置 ( 置 上 或 置 下 ) 和 每 个 设备 的 状态 (正常 或 中 断 )。 

代数 变量 (algebraic variable) 经 常 被 看 作 是 表达 可 能 世界 特征 的 符号 ， 因 此 可 能 世界 
可 用 代数 变量 进行 表达 。 代 数 变量 通常 以 大 写字 母 开 头 ， 并 且 每 个 代数 变量 Y 都 有 一 个 关 
联 的 域 ， 记 做 dom(V) ， 这 个 域 是 变量 可 取 值 的 集合 。 

本 章 中 所 提 及 的 代数 变量 可 以 被 简单 地 理解 为 变量 (variable)。 而 代数 变量 和 变量 在 
逻辑 上 的 区 别 将 在 第 12 章 进 行 讨 论 。 在 第 6 章 将 说 明代 数 变 量 和 随机 变量 在 概率 理论 中 
是 相同 的 。 

离散 变量 (discrete variable) 的 域 是 有 限 的 或 者 是 可 数 无 限 的 。 例 如 离散 变量 的 一 个 实 
例 是 二 元 变量 (boolean variable), CIRE (true, false}. WE X 是 一 个 二 元 变量 ， 书 写 
时 用 工 来 等 价 表示 它 的 大 写 体 X 王 trwe， 有 用工 表示 X= false。 当 然 对 应 离散 变量 也 存在 非 
离散 变量 ， 例 如 一 个 变量 的 域 对 应 了 实数 线 上 的 一 个 子 集 ， 则 这 个 变量 是 连续 变量 
(continuous variable) 。 

【 例 4-2] 作为 一 个 特定 的 类 ,课堂 时 间 (Class_time) 这 一 变量 可 以 由 起 始 时 间 来 表 
达 。 那 么 课堂 时 间 的 域 可 用 如 下 的 一 组 时 间 的 集合 表达 : 

dom(Class_time) = {8,9,10,11,12,1,2,3,4,5} l 

Joe 的 身高 (Height_joe) 这 一 变量 指 的 是 一 个 具体 的 人 在 一 个 具体 时 间 的 身高 ， 而 它 
的 域 则 是 一 定 身高 范围 内 以 厘米 为 单位 的 实数 集合 。 如 果 在 一 个 具体 时 间 正 在 下 雨 ， 那 么 
下 雨 (Raining) 可 以 被 看 做 是 一 个 二 元 随机 变量 ， 此 时 这 个 变量 取 值 为 true, < 

【 例 4-3) 考虑 图 1-8 中 所 描述 的 电气 系统 的 域 : 

。 Sipos 可 以 被 认为 是 表示 开关 S, 位 置 的 离散 二 元 变量 , 它 的 域 是 {up，down}。 

当 S,_pos=up 时， 表示 开关 Si Bk; 当 Spos 一 dorwn 时 ， 表 示 开 关 Si HF. 

。 Sist 可 以 被 认为 是 表示 开关 Si 状态 的 变量 ， 它 的 域 是 (ok,，wupside_down， short, 

intermittent，broken}。 当 S,_st=ok 时 ， 开 关 Si 正常 工作 ; 当 S:_st 二 upside_ 


RAE 特征 和 约束 73 


down 时 ， 开 关 Si 被 倒置 安装 ; 当 S_st=short 时 ， 开 关 Si 短路 并 相当 于 一 根 导 
线 ; 当 S1_st 二 intermittent 时 ， 开 关 S, 间断 性 工作 ; 当 S,_st=broken tt, FFX S, 
中 断 ， 不 允许 电流 通过 。 

。 Number_of_broken_switches 是 一 个 整数 值 变量 ， 它 代表 着 中 断 的 开关 数 。 

。 Currentuw, 是 一 个 实 值 变量 ， 它 代表 着 当前 通过 rw 导线 的 安培 数 。 当 Current_w = 
1.3 时， 表示 当前 有 1.3 安培 通过 w 导线 。 在 变量 和 常量 中 也 允许 不 等 式 作 为 二 元 特 
征 ; 例如 ，Current_rw 宇 1. 3 为 真 时 ， 表 达 至 少 有 1. 3 安培 通过 w SR. < 


符号 和 语义 

代数 变量 是 符号 。 

有 别 于 其 他 符号 ， 在 计算 机 内 部 符号 (symbol) 是 一 个 二 进 制 序列 。 一 些 符 号 有 其 固有 
的 解释 ， 例如， 表达 数字 的 符号 和 表达 文字 的 符号 。 而 在 程序 设计 语言 中 一 些 符号 没有 固 
定 的 意义 。 在 Java 语言 中 ， 从 Java 1.5 版 本 开始 它们 被 称 为 枚 举 类 型 (enumeration type). 
在 LISP 语言 中 ， 指 的 是 原子 (atom)。 通 常情 况 下 ， 它 们 以 索引 的 方式 被 应 用 在 给 出 打印 
名 字 的 符号 表 中 。 在 这 些 符号 中 唯一 的 操作 是 判断 两 个 符号 是 否 相 同 。 

对 于 计算 机 用 户 来 说 ， 符 号 是 有 意义 的 。 当 用 户 输 入 约 东 或 者 解 译 输出 结果 的 关联 意 
义 时 ， 需 要 借助 组 成 约束 和 输出 结果 的 符号 。 用 户 将 符号 和 概念、 目标 联系 到 一 起 。 例 
如 ， 对 于 计算 机 ， 变 量 HarrysHeight 仅仅 是 一 个 二 进 制 序列 ，HarrysHeight 和 
SuesHeight 没有 关联 。 对 于 一 个 人 来 说 ， 这 可 能 是 在 具体 时 间 下 某 人 在 具体 单位 上 的 
身高 。 

变量 - 值 这 样 一 个 配对 的 相关 意义 必须 满足 明晰 性 原则 (clarity principle): 一 个 全 知 智 
能 体 (omniscient Agent) 一 一 即 一 个 虚构 的 Agent， 该 Agent 知道 和 所 有 符号 关联 的 意义 
和 真理 这 个 Agent 可 以 决定 每 一 个 变量 的 值 。 例 如 ， 如 果 这 个 具体 的 人 被 提 及 ， 并 且 
具体 时 间 和 单位 被 指定 ， 那 么 height of Harry 满足 明晰 性 原则 。 例 如 ， 以 厘米 为 单位 我 
们 可 以 推理 J. K. 罗 琳 第 二 部 书 中 起 始 部 分 Harry Potter 的 身高 。 这 和 以 英寸 为 单位 在 同 
本 书 中 尾声 部 分 的 Harry Potter 的 身高 是 有 区 别 的 (尽管 它们 之 间 肯 定 是 有 联系 的 )。 如 果 
想 查阅 在 这 两 个 不 同时 间 的 Harry 的 身高 ， 则 必须 有 两 个 不 同 的 变量 。 

当 声明 约束 时 ， 必 须 有 统一 的 含义 ， 也 就 是 说 ， 对 于 相同 的 变量 和 相同 值 必 须 被 赋予 
相同 的 含义 ， 并 且 可 以 用 这 个 含义 去 解 杰 输出 。 

这 段 文字 最 主要 的 内 容 是 说 明 符 号 是 有 含义 的 ， 因 为 赋予 了 它 意义 。 对 于 本 章 来 说 ， 假 
设计 算 机 不 知道 符号 的 含义 。 一 个 计算 机 只 有 通过 感知 和 操纵 环境 ， 才 能 知道 符号 的 含义 。 


【 例 4-4] 填 字 游戏 是 一 个 经 典 的 约束 满足 问题 。 根 据 变量 填 字 游戏 有 如 下 两 种 不 同 
的 表达 : 

1) 一 种 表达 是 将 能 够 表达 字 方 向 ( 横 或 纵 ) 的 方 格 进行 标号 ， 将 这 些 具 有 编号 的 方 格 
作为 变量 ， 变 量 的 域 则 是 一 组 可 能 被 填写 的 字 的 集合 。 对 于 每 个 变量 ， 一 个 可 能 世界 则 对 
应 了 每 个 字 的 一 种 赋值 。 

2) 另 一 种 表达 是 把 每 个 单独 的 方 格 ( 非 编 号 ) 当 做 变量 ， 每 个 变量 的 域 是 字母 表 中 字 
母 的 集合 。 每 个 方 格 内 填写 一 个 字母 对 应 了 可 能 世界 。 < 

根据 变量 定义 可 能 世界 或 者 根据 可 能 世界 定义 变量 : 

。 变量 作为 基 元 ， 可 能 世界 则 对 应 了 为 每 个 变量 赋 一 个 值 的 全 赋值 (total assignment) 。 
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。 可 能 世界 作为 基 元 ， 变 量 是 从 可 能 世界 到 变量 域 的 一 个 函数 ; 对 于 给 定 的 可 能 世 
界 ， 函 数 的 返回 值 是 变量 在 可 能 世界 中 的 变量 值 。 

LB 4-5) 如 果 存 在 两 个 变量 ，A 的 域 是 {0，1，2}，B 的 域 是 {trxe，false}， MAE 
在 6 个 可 能 世界 ， 这 里 命名 为 rm，…，zrs。 对 于 变量 和 可 能 世界 的 可 能 赋值 方式 如 下 
所 示 : 

e w: A=0 H B=true 

。 w: A=0 H B= false 

* w,: A=1 H B=true 

。 wi: A=1 H B= false 

。 wi: A=2 H B=true 

。 w: A=2 H B= false 号 

【 例 4-6) 在 制定 一 组 游客 的 旅行 计划 时 ， 一 个 交易 Agent 可 能 被 要 求 去 安排 一 组 活 
动 集合 。 对 于 每 个 活动 则 需要 两 个 变量 : 一 个 是 日 期 的 ; 一 个 是 地 点 的 。 日 期 的 域 是 进行 
活动 的 可 能 时 间 集 合 ; 地 点 的 域 是 活动 发 生 的 可 能 城镇 集合 。 一 个 可 能 世界 则 对 应 了 每 个 
活动 发 生 的 时 间 和 地 点 的 一 种 赋值 。 < 


4.2.1 约束 


在 很 多 领域 ， 并 不 是 变量 的 所 有 可 能 赋值 都 被 允许 。 一 个 硬 约束 (hard constraint) 3 
者 简单 约束 指定 了 变量 的 合法 赋值 组 合 。 

作用 域 (scope) 或 者 方案 (scheme) 是 一 组 变量 的 集合 。 在 作用 域 S 上 的 元 组 (tuple) 是 
对 S 中 每 个 变量 的 一 种 赋值 。 在 作用 域 S 上 的 一 个 约束 (constraint)c 是 S 上 一 个 元 组 的 集 
合 。 约 束 涉及 (involve) 在 其 作用 域内 的 每 一 个 变量 。 

如 果 S' 是 变量 集合 ， 且 STS, t 是 S' 上 的 一 个 元 组 。 如果 受 限于 变量 5S 的 t 在 c 中 ， 
那么 称 t 满足 (satisfy) 约 束 co 

约束 可 以 用 关系 数据 库 中 的 术语 来 定义 。 约 束 和 关系 数据 库 的 最 大 区 别 在 于 约束 指定 
了 合法 值 ， 而 数据 库 关系 是 指定 了 在 某 些 情况 下 什么 为 真 。 相 对 于 在 一 个 表 中 外 延 地 
(Cextensionally) 表 达 每 个 赋值 ， 约 束 通常 是 依据 谓词 (二 元 函数 ) 被 内 涵 地 (intensionally) 定 
义 。 具 体 的 定义 既 可 以 用 合法 赋值 表示 ， 也 可 以 用 非法 赋值 表示 。 

【 例 4-7) 考虑 在 可 能 时 间 上 三 个 活动 的 一 个 约束 。A、B、C 是 三 个 变量 代表 该 时 间 
下 的 每 个 活动 。 假 设 每 个 变量 的 域 为 {1，2，3，4}。 

约束 可 以 用 表格 的 形式 被 写 出 ， 并 给 出 如 下 的 合法 组 合 : 





其 中 {A，B，C} 是 作用 域 。 每 一 行 是 一 个 元 组 ， 该 元 组 是 在 作用 域 限制 下 的 每 个 变量 
的 合法 赋值 。 第 一 个 元 组 是 

{A=2,B=2,C=4} 

赋予 A 值 为 2，B 值 为 2，C 值 为 4。 这 个 元 组 指明 了 变量 4 种 合法 赋值 中 的 一 种 。 
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用 上 述 表 格 的 约束 可 以 给 出 这 样 的 元 组 {A==1，B= 二 2，C 二 3，D= 二 3，E 二 1)} ， 因 为 该 
元 组 对 作用 域 变 量 的 赋值 均 为 合法 赋值 。 

这 种 约束 性 的 合法 赋值 也 可 以 用 一 阶 谓词 逻辑 公式 更 内 涵 地 描述 ， 那 么 上 述 约束 可 被 
表达 为 如 下 : 

(A<B) A (B<3) A(B<C) A 7(A=BAC=3) 

这 里 人 是 逻辑 与 ，” 是 逻辑 非 。 这 个 公式 表达 了 这 样 的 约束 : A 小 于 等 于 B，B 小 于 
3 且 B 小 于 C， 并且 不 存在 A 等 于 B 且 C 等 于 3 的 情况 。 < 

一 元 约束 (unary constraint) 是 作用 在 单个 变量 上 的 约束 (例如 : XA4). “TAR 
(binary constraint) 是 作用 在 一 对 变量 上 的 约束 (例如 : KAY). AH, & 元 约束 有 一 个 大 
小 为 & 的 作用 域 。 

对 于 每 个 约束 ， 如 果 可 能 世界 w 中 变量 的 赋值 都 满足 在 约束 条 件 下 作用 域内 变量 的 相 
应 约束 ， 那 么 就 说 可 能 世界 w 满足 约束 集 。 这 种 情况 下 我 们 说 可 能 世界 是 约束 的 一 个 模型 
(model) 。 换 言 之 ， 一 个 模型 就 是 满足 所 有 约束 的 一 个 可 能 世界 。 

CO) 4-8) 假设 配送 机 器 人 必须 完成 一 组 配送 活动 a、5、c、d、e。 假 设 每 个 活动 发 生 
的 次 数 可 以 是 1、2、3、4 中 的 任意 次 数 。 变 量 A 表示 活动 a 发 生 的 次 数 ， 类 似 定 义 其 余 
活动 的 发 生 次 数 。 代 表 每 个 配送 可 能 发 生 次 数 的 变量 域 如 下 : 

dom(A)={1,2,3,4},dom(B)={1,2,3,4) ,dom(CC) 一 {1,2,3,4} 

dom(D)={1,2,3,4},dom(E) = {1,2,3,4} 

假设 如 下 约束 是 必须 被 满足 的 : 

{(B¥3) ,(C#2),(A¥B) ,(B¥C) ,(C<D) , (A=D),(E<A),(E<B),(E<O),(E<D),(B#D)} 

这 就 是 寻找 到 一 个 模型 ， 使 得 每 个 变量 的 赋值 都 能 满足 所 有 约束 条 件 。 可 

【 例 4-9) 考虑 例 4-4 中 关于 填 字 游戏 约束 的 两 种 表达 。 

1) 对 于 填 字 游戏 来 说 ， 如 果 它 的 域 是 许多 单词 ， 那 么 约束 就 是 一 对 单词 相交 叉 的 字 
母 必须 相同 。 

2) 如 果 它 的 域 是 英文 字母 ， 那么 约束 则 是 字母 的 连续 序列 必须 构成 一 个 合法 的 
单词 。 < 

Cl 4-10) 例 4-6 中 ， 对 于 那些 典型 的 约束 也 有 很 多 种 描述 方式 。 可 能 某 些 具体 的 活 
动 需要 安排 在 不 同 的 日 期 ， 也 可 能 另外 一 些 活 动 需要 安排 在 同一 城镇 的 同一 天 ; 可 能 是 某 
些 活 动 必 须 被 安排 在 其 他 活动 之 前 ， 也 可 能 两 个 活动 之 间 必 须 相 隔 一 定 的 天 数 ， 还 有 可 能 
是 三 个 活动 不 能 被 安排 在 连续 的 三 天 。 < 


4.2.2 约束 满足 问题 


一 个 约束 满足 问题 (constraint satisfaction problem，CSP) 由 以 下 三 者 构成 : 

。 一 个 变量 集合 ; 

。 每 个 变量 都 有 一 个 域 ; 

。 一 个 约束 集合 。 
其 目的 是 选择 出 使 可 能 世界 满足 约束 的 每 个 变量 值 ， 因 此 需要 约束 的 模型 。 

一 个 有 限 的 约束 满足 问题 CCSP) 要 求 变量 集 是 有 限 的 ， 并 且 变 量 的 域 是 有 限 的 。 尽 管 
针对 无 限 的 域 甚至 连续 域 的 CSP 设计 了 一 些 方法 ， 但 是 本 章 的 许多 方法 仅 针 对 有 限 CSP 
有 效 。 
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当 每 个 变量 被 看 做 是 一 个 单独 的 维度 ， 这 类 CSP 问题 就 转化 为 多 维 的 角度 。 多 维 使 


CSP 更 难以 处 理 ， 却 也 提供 了 可 利用 的 结构 。 
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对 于 给 定 的 CSP， 可 以 进行 以 下 的 处 理 : 

。 判断 是 否 存在 一 个 模型 。 

。 寻找 一 个 模型 。 

。 寻找 全 部 的 模型 或 者 枚 举 模型 。 

。 计算 模型 的 数量 。 

。 对 于 给 定 评估 模型 的 度量 标准 ， 寻 找 一 个 最 优 的 模型 ， 见 4. 10 节 。 

。 判断 一 些 表达 是 否 适用 于 所 有 模型 。 

本 章 主要 研究 找到 一 个 模型 的 问题 。 有 一 些 方法 也 可 以 判断 是 否 无 解 。 比 较 特殊 的 
是 ， 有 一 些 方 法 在 有 解 的 情况 下 可 以 给 出 一 个 模型 ， 但 是 无 解 的 情况 下 却 不 能 告 之 无 模型 
存在 。 

约束 满足 问题 是 广泛 存在 的 ， 因 此 寻找 有 效 的 方法 解决 这 类 问题 是 具有 现实 意义 的 。 
对 一 个 有 限 域 的 CSP 问题 ， 判 断 它 是 否 存在 一 个 模型 是 NP 难 的 ( 详 见 5. 2.2 节 中 “不 确定 
性 选择 "的 内 容 )， 且 在 最 坏 的 情况 下 ， 不 存在 一 个 已 知 算法 可 以 在 非 指数 时 间 内 解决 这 类 
问题 。 但 是 ， 不 能 因为 一 个 问题 是 NP 难 的 ， 就 断言 所 有 实例 都 是 难以 解决 的 。 一 些 实例 
提供 了 可 利用 的 结构 。 


4.3 生成 -测试 算法 


任何 有 限 的 CSP 问题 都 可 以 用 穷 举 的 生成 -测试 算法 来 解决 。 赋 值 室 间 (assignment 
space) D 表示 所 有 变量 的 赋值 集合 ， 它 对 应 了 所 有 可 能 世界 组 成 的 集合 。 中 的 每 个 元 素 
都 代表 对 所 有 变量 的 一 种 赋值 。 算 法 返回 值 是 符合 所 有 约束 的 赋值 。 

因此 ， 生 成 -测试 (generate-and-test) 算 法 如 下 : 依次 检查 每 个 全 赋值 ， 如 果 一 种 全 赋 
值 满足 了 所 有 约束 ， 那么 返回 这 种 赋值 。 

【 例 4-111 例 4-8 中 赋值 空间 是 

D={ {A=1,B=1,C=1,D=1,E=1},{A=1,B=1,C=1,D=1,E=2},-, 

{A=4,B=4,C=4,D=4,E=4} } 

AR Bil Py SMX | D| =4=1024 个 不 同 的 赋值 。 在 习题 4. 1 的 填 字 游戏 的 例子 中 ， 
有 405 一 4096 000 000 个 可 能 的 赋值 。 3 

如 果 n 个 变量 中 每 个 变量 的 域 大 小 为 4， BAD 中 有 a" 个 元 素 。 如 果 存 在 e TAR, 
那么 测试 的 约束 实例 总 数 为 Oled"). 4n 很 大 时 ， 这 个 问题 就 会 变 得 难以 解决 ， 因 此 我 
们 需要 找到 一 种 有 效 的 求解 方法 。 : 


4.4 使 用 搜索 求解 CSP 


生成 -测试 算法 在 检查 是 否 满足 约束 之 前 需要 为 所 有 变量 赋值 。 因 为 单独 的 约束 仅仅 
包含 一 个 变量 子 集 ， 所 以 在 所 有 变量 都 被 赋值 之 前 ,已 经 有 一 部 分 约束 能 被 测试 。 如 果 存 
在 部 分 赋值 和 某 约束 不 一 致 ， 那 么 包含 这 部 分 赋值 的 任意 完整 赋值 都 是 与 约束 不 一 致 的。 
【 例 4-12】 在 例 4-8 配送 计划 问题 中 ，A=1 A B=1 的 赋值 方式 与 约束 AAB 是 不 一 
致 的 。 如 果 变 量 A AB 被 首先 赋值 ， 那 么 这 种 不 一 致 就 会 在 为 C，、D、E 赋值 之 前 被 发 
现 ， 这 样 可 以 节省 大 量 的 工作 。 < 
一 个 替代 生成 -测试 算法 的 方式 是 构建 一 个 搜索 空间 ， 之 前 章节 所 提供 的 搜索 策略 在 
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这 个 搜索 空间 内 可 以 被 使 用 。 搜 索 问 题 可 以 如 下 定义 : 
。 将 一 些 变量 子 集 的 赋值 作为 节点 。 
。 在 节点 和 N 中 选择 一 个 未 被 赋值 的 变量 上， 在 含有 Y 的 每 个 赋值 中 选取 不 违反 任何 
约束 的 赋值 作为 N 的 邻居 节点 。 


假设 节点 N 表示 赋值 X= 二 ww ，…，X 二 vi。 为 了 找到 NN 的 邻居 ， 选 择 变量 Y， 该 变 
量 不 在 集合 {Xi， S82 'y Xi}, 对 于 每 一 个 值 yi Edom(Y), an X =; eet, X= ts 
Y=y RERAIRRIE, WA X Su, > X=, Y=», AN 的 邻居 节点 。 


。 开始 节点 为 空 节 点 ， 表 示 没 有 任何 变量 被 赋值 。 

。 一 个 目标 节点 则 是 对 每 个 变量 都 进行 赋值 的 节点 。 这 种 节点 只 有 在 赋值 满足 所 有 

约束 的 条 件 下 才 存 在 。 

这 种 情况 下 ， 寻 找 的 不 是 兴趣 路 径 ， 而 是 目标 节点 。 

【 例 4-13) 假设 存在 一 个 含有 A、B、C 三 个 变量 的 CSP 问题 ， 且 每 个 变量 的 域 为 
{1，2，3，4}。 假 设 约 束 为 A<KBAB<C, PAN 4-1 可 能 是 一 个 满足 这 种 约束 的 搜索 
树 。 图 中 一 个 节点 对 应 了 从 根 节 点 到 该 节点 的 所 有 赋值 。 不 符合 约束 的 潜在 节点 将 被 前 枝 
掉 ， 用 X 来 标记 。 

最 左边 的 X 代 表 赋 值 A 二 1，B 二 1， 这 不 符合 A<B 的 约束 ， 因 此 被 删除 掉 。 

这 个 CSP 问题 有 4 个 解 。 最 左边 的 解 是 A 二 1，B 二 2，C= 二 3。 搜 索 树 的 大 小 和 算法 的 
效率 取决 于 每 次 选取 的 变量 。 如 果 使 用 先 A 再 B 最 后 C 的 静态 分 割 顺序 ， 那 么 效果 将 没 
有 本 例 中 使 用 的 动态 顺序 好 。 尽 管 变量 顺序 不 同 ,但 结果 是 相同 的 。 

在 本 例 中 ， 使 用 生成 -测试 算法 需要 测试 4: 二 64 个 赋值 方式 。 但 用 搜索 的 方法 ， 只 生 
成 22 个 赋值 方式 。 





4=1 A=2 
x 
AN, T 
4=1 A=2 A= A=4 PA C=3 C=4 
Zr 
C=l C2 G3 Ga 4=1 4=2 43 4=4 
xXx X vv Y X X 
图 4-1 fij 4-13 中 CSP 的 搜索 树 < 


使 用 深度 优先 的 搜索 方法 ， 通 常 称 为 回潮 (backtracking) 。 该 方法 比 生成 -测试 算法 更 
为 有 效 。 生 成 -测试 算法 相当 于 在 到 达 叶 子 节点 之 前 都 不 检查 是 否 满足 约束 条 件 。 早 检查 
约束 条 件 就 可 以 修剪 子 树 ， 进 而 减少 了 不 必要 的 搜索 。 
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4.5 一 致 性 算法 


尽管 深度 优先 搜索 算法 在 赋值 的 搜索 空间 内 比 生 成 -测试 算法 有 了 实质 性 的 提高 ， 但 
是 该 方法 仍 有 多 个 缺陷 可 以 被 改进 。 

【 例 4-14] 例 4-13 中 ,变量 A 和 B 通过 约束 A 二 B 被 联系 起 来 。 因 为 dom(B)=({1, 
2, 3, 4}, PMUA=4 与 每 一 个 可 能 的 赋值 组 合 后 都 不 满足 约束 。 而 在 图 4-1 何 溯 法 中 ，B 
与 C 的 赋值 过 程 中 ， 这 个 事实 就 被 忽略 。 假 如 使 用 一 个 简单 的 手段 将 4 这 个 值 从 dom(A) 
中 删除 ， 那 么 这 种 失效 性 就 可 以 一 劳 永 逸 地 避免 。 < 

对 于 由 约束 满足 问题 形成 的 整个 约束 网 络 的 操作 来 说 ， 众 多 方法 中 一 致 性 算法 的 思想 
是 最 好 的 : 

。 每 个 变量 为 一 个 节点 ， 变 量 节 点 用 圆 形 画 出 。 

。 每 个 约束 为 一 个 节点 ， 约 束 节 点 用 长 方形 画 出 。 

。 对 于 每 个 变量 X， 与 其 相关 的 Dx 是 变量 可 能 取 值 的 一 个 集合 。 这 个 集合 的 初始 

值 为 变量 的 域 。 

。 对 于 每 个 约束 co 与 它 作用 域内 的 每 一 个 变量 X 都 用 弧 连 接 表 未 ，c)。 

这 样 一 个 网 络 就 称 之 为 一 个 约束 网 络 (constraint network) 。 

[B] 4-15〗 例 4-13 中 ， 有 A、B、C 三 个 变量 ,， 且 每 个 变量 的 域 为 {1，2，3，4})。 约 
RA A<BAB<C, 在 图 4-2 的 约束 网 络 中 ， 有 4 个 弧 : 


(A,A<B) 
(B,A<B) 
(B,B<C) 
(C,B<C) 
(4) G) O 

4-2 例 4-15 中 CSP 的 约束 网 络 ~ 
【 例 4-16] 约束 XAH 1AN: 
(X, XŻ4) 
约束 X+Y=Z 有 3 个 弧 : 
(X,X+Y=Z) 
(Y,X+Y=Z) 
(Z,X+Y=Z) 号 


最 简单 的 情况 是 ， 约 束 的 作用 域内 仅 有 一 个 变量 。 这 种 情况 下 ， 如 果 单 变量 的 每 个 变 
量 值 都 满足 约束 ， 那 么 这 个 弧 就 是 域 一 致 (domain consistent) fy 。 

KB 4-17] 约束 BA3 的 作用 域 是 {B}。 在 该 约束 下 ， 且 Ds 二 {1，2，3，4) 时 ， 因 为 
B= 二 3 不 符合 约束 ， 因 此 弧 4B，B 关 3) 不 是 域 一 致 的 。 假 如 3 从 BMS PMR, ABA UE 


域 一 致 的 。 K 
假设 约束 c 的 作用 域 是 {XX，Yi ，…，Y}。 如 果 对 于 每 个 值 zxEDx， 有 yis s Jrs 
其 中 y:E Dy,» 使 得 cfK 双 一下， Y= yis ewe y Y, =y BORE. 那么 弧 《XX， c> 是 弧 一 致 Carc 


consistent) 的 。 


【 例 4-18) 例 4-15 的 网 络 中 ， 没 有 弧 是 弧 一 致 的 。 因 为 A 二 4 时 B 中 没有 与 之 对 应 且 
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满足 A<B 的 值 ， 所 以 第 一 个 弧 不 是 弧 一 致 的 。 如 果 把 4 从 A 的 域内 删除 ， 那 么 该 弧 为 弧 
一 致 的 。 第 二 个 弧 同 样 不 是 弧 一 致 的 ， 因 为 在 B= 时 ，A 中 没有 与 之 对 应 的 值 。 < 

如 果 弧 (XX， ORAM — K, WA X 中 则 存在 一 些 值 ， 这 些 值 不 能 保证 Yi. es Y, 与 
之 对 应 使 得 约束 成 立 。 这 种 情况 下 ， 为 了 保证 弧 (X，c) 是 一 致 的 ， 则 需要 判断 变量 的 Dx 
中 有 哪些 值 是 与 其 他 变量 值 无 法 对 应 的 ， 将 这 些 值 从 Dx 中 全 部 删除 。 

图 4-3 中 给 出 了 广义 弧 一 致 性 (generalized arc consistency, GAC) BY, rx TDA 
( 弧 集 ) 集 合 中 潜在 的 非 一 致 弧 和 待 处 理 的 弧 进 行 操 作 ， 构建 整 个 网 络 的 弧 一 致 。TDA 初 
始 时 包含 了 图 中 所 有 的 弧 。 当 弧 集 不 为 空 时 ， 从 集合 内 选择 删除 的 弧 《X，c) 需 要 被 进一步 
分 析 。 如 果 弧 是 非 一 臻 的， 那么 修剪 变量 X 的 域 使 之 变 为 一 致 。 作 为 变量 AX 修剪 结果 ， 
之 前 所 有 一 致 的 弧 都 可 能 变 成 非 一 致 的 ， 因 此 需要 选择 一 些 弧 将 其 放 回 TDA, WEIZ, 
c)，c 是 关于 变量 X 的 不 同 于 c 的 约束 ， 且 Z 是 与 "相关 但 是 不 同 于 X 的 变量 。 





1; procedure GAC(V, dom, ©) 

2 Inputs 

3 V: 变量 集合 

4; dom; 函数 ， 函 数 dom(X) 为 变量 X 的 域 
5: C; 被 满足 的 约束 集合 

6: Output 

7 每 个 变量 的 弧 一 致 域 

8 Local 





9: Dy 是 每 个 变量 X 的 值 的 集合 

10: TDA EMRA 

ll: for each 变量 X do 

12; Dxy~<-dom(X) 

13; TDA+{(X, c) | c€C AXE scopetc)} 

14; while TDA¥{}do 

15; select(X, c) € TDA; 

16; TDA+TDA \ {(X, ©)} 

17: NDx~{x | zE Dy 并且 一 些 {X=z, YS ys os Ye= rn} Eos 
对 于 所 有 i y ED} 

18: if NDx# Dx then 

19; TDA=-TDAU({(Z, ') | X€scopelc’), c’ Riko, ZE scope(c’)} \ {X}} 

20: Dx~-NDx 

21; return {Dx |X 是 一 个 变量 } 








4-3 广义 弧 一 致 算法 


KB 4-19] 用 GAC 算法 操作 例 4-15 的 网 络 。 初 始 ， 所 有 的 弧 都 在 TDA 集合 中 。 下 
面 是 一 个 选择 弧 的 可 能 顺序 : 
。 假设 算法 首先 选择 了 弧 (4，A<<B)。 对 于 A 二 4，B 没有 与 之 对 应 可 以 满足 约束 
A 二 B 的 值 。 因 此 ，4 从 A 的 域 中 被 删除 。 因 为 在 TDA 外 没有 其 他 的 弧 ， 所 以 本 
次 移动 操作 没有 弧 被 添加 到 TDA PCIA, A<B) A TDA 中 删除 一 一 译 者 
注 )。 





。 假设 接 下 来 (B，A 二 B) 被 选中 ， 那 么 1 将 被 从 B 的 域内 删除 ， 仍 然 没 有 元 素 被 添 


加 到 TDA P (HIB, A<B)M TDA 中 删除 )。 

。 假设 (B，B 二 C) 又 被 选中 ， 那 么 4 将 被 从 B 的 域内 删除 。 因 为 B 的 域 因 男 一 个 约 
束 被 缩减 ， 因 此 A 也 存在 被 约 简 的 潜在 可 能 ， 所 以 必须 将 弧 ‘A，A 二 B) 重 新 添加 
到 TDA 中 。 
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。 WRA, A<B MAAK PHM, 那么 3 将 从 A KRAMERA, A<B) 
从 TDA 中 删除 ) 。 
。 在 TDA 中 还 有 弧 (C，B<C)。 那 么 值 1 和 2 将 从 CC 的 域内 被 删除 。 没 有 弧 被 添加 
到 TDA H, H TDA 为 空 。 
算法 终止 ， 并 生成 DA 王 {(1，2})，Da 一 12，3})，De 一 43，4})。 虽 然 该 方法 没有 完全 解 
决 问题 ， 但 是 却 将 问题 大 大 简化 了 。 < 
[Bi 4-20] 用 GAC 算法 来 解决 例 4-8 的 调度 问题 。 图 4-4 的 网 络 图 已 经 构造 了 域 一 致 
(将 值 3 从 B 的 域内 删除 ， 值 2 从 C 的 域内 删除 ) 。 
假设 算法 首先 选择 了 弧 ‘D，C<=D}。 因 为 D=1 和 Dc 中 的 任何 值 都 不 一 致 ， 这 个 弧 
就 不 是 弧 一 致 ， 将 1 从 Dp 中 删除 ( 弧 (DD，C<D) 从 TDA 中 删除 )。Dsp 二 {2，3，4}, A 
XF D WIKA, A=D), (B, BAD), (E, EXD) RBM TDA 中 ， 其 实 这 些 弧 已 经 
#2 TDA HT. 
假设 接 下 来 选中 (C， 下 一 C)， 那 么 Dc WAWA, 4}, ACD, CCD) RBM Ms 
TDA 中 。 
(BE (D, C<D), WA Dp 被 进一步 约 简 为 单一 的 (4} 。 处 理 弧 (C，C<D) 后 De 
为 {3}。 处 理 弧 (A，A==D) 后 Da H (4). HIB, BAD) IG Ds 为 {1，2}。 处 理 弧 (如 ， 
EE 二 B) 后 Ds H12). RA. AIKE, E<B) E Ds 为 1。 队列 中 剩余 所 有 的 弧 都 是 一 臻 
的 ， 因 此 算法 结束 且 TDA 为 空 。 约 简 后 的 变量 域 被 返回 。 在 本 例 中 ， 所 有 返回 的 域 大 小 
都 为 1 且 是 唯一 的 解 : A=4, B=2, C=3, D=4, E=1. 





图 4-4 域 一 致 约束 网 络 。 变 量 及 其 域 用 圆圈 表示 ， 约 束 用 长 方形 表示 ， 
将 变量 和 其 相关 的 约束 用 弧 线 连接 < 


GAC 算法 不 受 选择 弧 的 顺序 影响 ， 终 止 时 产生 的 结果 是 相同 的 换言之， 产生 了 相 
同 的 弧 一 致 和 相同 的 约 简 域 。 基 于 网 络 的 终止 状态 ， 以 下 三 种 情况 有 可 能 发 生 ， 


第 4 章 特征 和 约束 81 


。 第 一 种 情况 ， 某 一 变量 的 域 为 室 ， 这 表明 该 CSP 问题 无 解 。 注 意 ， 只 要 某 一 域 变 
为 空 ， 那 么 在 算法 终止 之 前 就 可 以 把 与 这 个 变量 节点 相连 接 的 节点 的 域 都 置 为 空 。 

。 第 二 种 情况 ， 每 个 域 都 有 一 个 单独 的 值 ， 这 表明 该 CSP 问题 有 且 仅 有 一 个 解 ， 比 
如 例 4-20。 

。 第 三 种 情况 ， 每 个 域 都 不 为 空 ， 并 且 至 少 有 一 个 域内 含有 多 站 值 。 这 种 情况 下 ， 


则 不 知道 是 否 存在 一 个 解 和 解 是 什么 。 因 此 需要 其 他 的 方法 来 解决 这 个 问题 ， 这 - 


类 方法 在 后 续 章 节 中 介绍 。 

下 例 将 说 明 一 个 网 络 即 使 无 解 ， 也 有 可 能 存在 弧 一 致 现象 。 

【 例 4-21) 假设 存在 三 个 变量 , 分别 是 A、B 和 C， 每 个 变量 的 域 为 {1，2，3}。 存 
在 这 样 的 约束 A=B, B=CH 和 A 关 C。 这 种 情况 下 ,使 用 任何 单一 约束 都 不 能 将 域 约 简 ， 
因此 该 例 为 弧 一 致 。 尽 管 存在 弧 一 致 ， 但 是 却 没 有 解 。 对 于 三 个 变量 任何 一 种 赋值 方式 都 
不 能 满足 上 述 约束 。 a 

如 果 每 个 变量 域 的 大 小 是 d HA e 个 约束 需要 被 测试 ， 那么 GAC 算法 将 在 Oled’) H 
时 间 内 进行 一 致 性 检查 。 对 于 一 些 CSP 问题 ,例如 约束 图 形 是 一 个 树 形 结构 ， 该 方法 可 
以 基于 变量 数目 以 线性 时 间 独 自 解决 CSP 问题 。 

弧 一 致 的 各 种 扩展 技术 也 被 研究 。 当 域 不 是 有 限 域 时 ， 这 些 非 有 限 的 域 可 以 用 图 形 来 
描述 ， 而 不 是 将 它们 的 值 罗 列 出 来 。 当 约束 被 扩展 地 表达 时 ， 对 约束 的 修 前 也 是 可 操作 
的 : 如 果 一 个 值 因 变 量 X 被 删除 ， 那 么 所 有 涉及 变量 X 的 约束 中 这 个 值 都 可 以 被 删除 。 
高 阶 一 致 性 技术 ， 例 如 路 径 一 致 (path consistency)， 可 以 同时 分 析 多 个 变量 的 天 元 组 ， 
而 不 仅仅 是 被 一 个 约束 连接 的 成 对 变量 。 例 如 在 例 4-21 中 ， 同 时 考虑 三 个 变量 ， 那 么 可 
以 分 析出 此 问题 无 解 。 后 续 介 绍 的 增强 型 的 弧 一 致 方法 在 处 理 某 些 问题 方面 往往 比 高 阶 方 
法 更 有 效 。 


4.6 域 分 割 


另 一 个 简化 网 络 的 方法 是 域 分 割 (domain splitting) 或 者 实例 分 析 (case analysis) 。 该 
方法 的 主要 思路 是 将 一 个 问题 分 割 成 许多 不 相交 的 实例 ， 然 后 分 别 解决 每 个 实例 。 那 么 原 
始 问 题 的 所 有 解 的 集合 就 是 每 个 实例 的 解 的 并 集 。 

最 简单 的 情况 ， 假设 一 个 二 元 变量 X 的 域 是 {:，f}。 所 有 的 解 要 么 是 X= 二 tz 要 么 是 
X 王 F。 那 么 一 个 找到 解 的 方法 是 ， 首 先 设 置 X=t 找到 所 有 上 值 下 的 解 ， 然 后 设置 X= 了 
找到 所 有 f 值 下 的 解 。 将 一 个 变量 赋值 后 给 出 一 个 更 小 的 约 简 问题 ， 进 而 解决 这 个 简化 后 
问题 。 

如 果 一 个 变量 的 域 有 超过 两 个 元 素 ， 例 如 变量 A 的 域 是 {1，2，3，4}， 那么 有 以 下 的 
方法 去 分 割 : 

。 将 域 的 每 个 值 分 割 为 一 个 实例 。 例 如 ， 将 A 分 割 为 4 个 实例 A=1, A=2, A=3 

和 A 二 4。 
。 经 常 将 域 分 割 为 两 个 不 相交 的 子 集 。 例 如 ， 将 4A 分割 为 两 个 实例 ， 一 个 实例 是 
AE{1，2}， 另 一 个 实例 是 AE1{3, 4}。 . 

第 一 种 单个 分 割 的 方式 会 产生 更 多 的 处 理 过 程 ， 而 第 二 种 方式 则 允许 以 较 少 的 步骤 进 
行 更 多 的 修剪 。 例 如 ， 不 管 A 的 值 是 1 还 是 2， 对 于 变量 B 都 有 相同 的 值 可 以 被 修剪 ， 那 
么 第 二 种 分 割 方式 只 需 对 这 种 情况 分 析 一 次 ， 并 且 不 会 对 A 中 的 每 个 元 素 再 重新 检查 。 节 
省 操作 的 程度 取决 于 怎样 划分 对 域 。 
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用 域 分 割 方法 循环 地 解决 实例 、 识 别 何 时 无 解 等 价 于 4.4 节 中 的 搜索 算法 。 在 搜索 时 
交叉 使 用 弧 一 致 算法 会 使 搜索 变 得 更 加 有 效 。 

一 个 有 效 解决 CSP 问题 的 方法 是 在 域 分 割 操作 之 前 使 用 弧 一 致 算法 对 网 络 进行 简化 。 
也 就 是 说 ， 进 行 如 下 步骤 来 解决 问题 : 

。 用 弧 一 致 方法 来 简化 网 络 ; 

© 如 果 问 题 没有 被 解决 ， 选 择 一 个 含 多 个 元 素 的 域 进行 分 割 ， 且 循环 解决 每 个 实例 。 

该 方法 需要 注意 的 是 ， 在 域 分 割 之 后 不 需要 再 从 头 开始 弧 一 致 操作 。 如 果 将 变量 X 
进行 域 分 割 ， 作 为 分 割 结 果 有 些 弧 可 能 不 再 满足 弧 一 致 ，TDA 可 以 用 以 下 弧 启 动 ， 且 这 
HILOF AY, r), Hp X 出 现在 > ARP, Y ERX 外 出 现在 约束 中 的 变量 。 

【 例 4-22〗 例 4-19 中 ， 弧 一 致 的 方法 虽然 简化 了 网 络 , 但 是 却 没有 解决 该 问题 。 在 
弧 一 致 操作 后 ， 变量 域 内 仍然 含有 多 个 元 素 。 假 设 变量 B 被 分 割 。 有 两 个 实例 : 

。 B 二 2。 这 种 实例 下 A=2 被 删除 。 然 后 对 C 进行 分 割 ， 得 到 两 个 解 。 

。 B 二 3。 这 种 实例 下 C=3 被 删除 。 然 后 对 A 进行 分 割 ， 得 到 两 个 解 。 

该 方法 的 搜索 树 与 图 4-1 的 搜索 树 进行 对 比 ， 弧 一 致 的 搜索 空间 更 小 ， 且 对 变量 选择 
顺序 不 敏感 。( 图 4-1 中 如 果 选 用 其 他 的 变量 选择 顺序 ， 搜 索 空间 会 更 大 。) < 

男 一 种 增强 域 分 割 效果 的 手段 如 下 : 如 果 对 变量 的 赋值 拆 分 了 图 ， 每 个 被 拆 分 的 子 部 
分 可 以 被 单独 解决 。 那 么 该 问题 的 完全 解 将 是 每 个 子 部 分 的 解 的 交叉 乘积 。 这 种 方法 可 以 
减少 很 多 计算 ， 比 如 查询 解 的 个 数 的 计算 或 者 寻找 所 有 解 的 计算 。 例 如 ， 一 个 子 部 存在 
100 个 解 ， 另 一 部 存在 20 个 解 ， 那 么 问题 将 有 2000 个 解 。 这 比 单独 去 寻找 2000 个 解 中 的 
每 一 个 解 更 有 效 。 


利用 命题 结构 


- 人 工 智能 中 一 个 基本 的 思想 就 是 利用 域 中 的 结构 。 利 用 变量 和 约束 的 限制 类 可 对 CSP 
问题 提供 一 种 结构 形式 。 这 样 的 类 别 可 以 称 之 为 命题 可 满足 性 (propositional satisfiability) 
问题 的 类 别 。 这 类 问题 具有 以 下 性 质 ， 

。 二 元 变量 ; 一 个 二 元 变量 就 是 变量 的 域 有 {true，false} 两 个 值 。 给 定 一 个 二 元 变 
量 Happy， 那 么 命题 happy 表明 Happy 二 true， 且 happy 表 明 Happy = false. 
子 句 约束 : 一 个 子 句 (clause) 形 式 为 l Vile Veer VE, 的 一 种 表达 ， 这 里 每 个 l; 是 一 
个 文字 。 一 个 文字 (literal) 为 二 元 变量 的 一 个 赋值 。 当 可 能 世界 中 的 一 个 子 句 被 满 
足 ， 或 者 说 为 真 时 ， 当 且 仅 当 组 成 子 句 的 文字 中 至 少 有 一 个 为 真 。 
例如 ， 子 句 happyV sad V living 是 在 变量 Happy、Sad Al Living 间 的 一 个 约束 。 当 
Happy 的 值 为 真 ， 或 者 Sad 的 值 为 真 ， 或 者 Living 的 值 为 假 时 ， 子 句 的 值 就 为 真 。 
一 个 子 句 是 在 一 组 二 元 变量 上 的 约 东 ， 这 组 变量 需要 考虑 消除 一 种 赋值 情况 ， 就 是 使 
得 全 体 文字 为 假 的 赋值 。 因 此 ， 子 名 happy V sad V living th AW happy, sad, living 
是 不 被 允许 的 。 
当 只 有 两 个 值 的 时 候 ， 从 域 中 删除 一 个 值 等 价 于 为 变量 赋 了 一 个 相反 的 值 。 例 如 ， 如 
R X 的 域 是 {true，false}， 那么 从 域 中 删除 trues FATHER X 赋值 为 false。 
弧 一 致 方法 可 以 被 用 来 修剪 变量 集合 和 约束 集合 。 对 一 个 二 元 变量 赋值 可 以 简化 约束 集合 : 
。 如 果 变 量 X 赋值 为 true ， 所 有 包含 X=true 的 子 句 都 变 为 元 余 ， 它 们 自动 地 被 满 
足 。 那 么 这 些 子 句 就 可 以 被 删除 。 相 似 地 ， 当 和 赋值 为 false 时 所 有 包含 和 一 
false 的 子 句 都 可 以 被 删除 。 
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。 如 果 变 量 X 赋值 为 true， 所 有 包含 X= false 的 子 句 都 可 以 把 和 = false 从 子 句 中 
MPR. AAS. 4 X 赋值 为 false 时 ， 所 有 包含 X=true 的 子 句 都 可 以 将 和 一 true 
从 子 句 中 删除 。 该 步骤 可 以 叫做 单元 归结 (unit resolution), 
在 一 些 修剪 子 句 的 步骤 之 后 ， 子 句 可 能 存在 仅 包 含 一 种 赋值 的 情况 ， 例 如 了 一 v。 这 
种 情况 下 ， 变 量 Y 域内 的 其 他 的 值 就 都 可 以 被 删除 。 对 于 赋值 Y 一 w， 上 述 修 剪 操 作 可 以 
被 重复 进行 。 如 果 所 有 的 赋值 都 被 从 子 句 中 删除 ， 那 么 说 明 不 满足 约束 。 
【 例 4-23〗 考虑 子 句 工 VyVZE。 当 和 被 赋值 为 trxe 时 ， 子 句 可 以 被 简化 为 yVz。 如 
果 接 下 来 了 被 赋值 为 false ， 子 名 可 以 被 简化 为 z。 因 此 ，irue 可 以 从 Z 的 域内 被 删除 。 
相反 地 ， 如 果 X 被 赋值 为 false ， 上 述 子 句 就 可 以 被 删除 。 a 
如 果 一 个 变量 在 所 有 剩余 的 子 句 中 都 用 相同 的 值 ， 且 算法 只 需要 发 现 一 个 模型 ， 那 么 
该 变量 可 以 被 赋 为 这 个 相同 的 值 。 例 如 ， 如 果 变 量 了 仅 以 了 =true 的 形式 出 现 ( 如 ，y 不 
是 任何 子 句 )， 那么 变量 Y 可 以 被 赋值 为 true 。 因 为 在 设置 了 = 二 true 后 ， 剩 余 的 子 句 集 合 
将 是 了 被 赋予 false 的 子 句 集合 的 子 集 ， 因 此 这 种 赋值 并 不 是 删除 所 有 的 模型 ， 而 是 将 问 
题 简化 。 在 所 有 子 句 中 仅 含有 一 个 值 的 变量 被 称 之 为 纯 符 号 (pure symbol). 
事实 证 明 将 修剪 域 和 约束 、 域 分 割 、 纯 符号 赋值 和 有 效 地 管理 约束 ( 即 ， 判 断 何 时 除 
一 个 析 取 外 其 余 所 有 的 析 取 为 假 ) 应 用 到 命题 可 满足 问题 是 非常 有 效 的 手段 。 该 算法 以 作 
者 名 字 命 名 ， 简 称 为 DPLL。 


4.7 变量 消除 


弧 一 致 方法 通过 删除 变量 值 简 化 了 网 络 。 一 个 更 完整 的 思想 是 变量 消除 (Variable 
Elimination，VE)， 该 方法 则 通过 删除 变量 来 简化 网 络 。 

VE 的 思想 是 逐个 地 删除 变量 。 当 删除 一 个 变量 X 时 ，VE 将 在 剩余 的 一 些 变量 中 构 
建新 的 约束 ， 新 约束 反映 了 和 在 所 有 其 他 变量 上 的 影响 。 新 约束 替换 了 所 有 涉及 变量 X 
的 约束 并 且 形 成 了 一 个 不 含 X 的 约 简 网 络 。 由 于 构建 了 新 约束 ， 因 此 约 简 后 的 CSP 的 任 
何 解 都 可 被 扩展 为 原 有 包含 变量 X 的 较 大 CSP 的 某 一 个 解 。 所 以 除了 创造 新 约束 外 ，VE 
提供 一 种 构造 解 的 方法 ， 该 方法 从 约 简 的 CSP 中 选择 一 个 解 来 构建 包含 变量 X 的 CSP 问 
题 的 解 。 

下 述 算法 的 描述 将 使 用 关系 代数 计算 中 的 连接 和 投影 操作 。 

消除 变量 X 时 ，X 的 影响 力 通过 包含 X 的 约束 作用 到 其 余 变量 。 首 先 ， 算 法 收集 所 
有 涉及 X 的 约束 。 让 所 有 的 这 些 关系 进行 连接 操作 形成 关系 rx(X，Y)， 这 里 了 是 作用 域 
rx 内 的 其 他 变量 。 然 后 把 rx 投影 到 立 ， 这 个 关系 可 以 代替 所 有 包含 X 的 关系 。 那 么 这 样 
就 得 到 了 一 个 包含 更 少 变量 的 约 简 CSP 问题 ， 且 约 简 后 的 CSP 问题 可 以 以 此 方法 递归 解 
决 。 一 旦 对 于 约 简 后 的 CSP 问题 生成 了 一 个 解 ， 那 么 通过 将 解 与 rx 进行 连接 操作 ， 就 可 
以 扩展 这 个 解 得 到 原始 CSP 问题 的 一 个 解 。 

仅 剩 下 一 个 变量 时 ， 算 法 返回 变量 的 域 元 素 ， 因 为 这 些 元 素 同 该 变量 的 约束 是 一 
致 的 。 

(Gl 4-24] 考虑 包含 变量 A、B、C 的 CSP 问题 ， 这 里 每 个 变量 的 域 为 {1，2，3， 
4}。 假 设 包 含 BB 的 约束 是 A 二 B 和 B 二 C。 可 能 存在 其 他 的 变量 ,但 是 这 些 其 他 变量 与 8 
不 存在 公共 的 约束 ， 即 使 消除 B 也 不 能 对 这 些 变量 添加 任何 新 的 约束 。 为 了 删除 B， 首 先 
把 包含 B 的 关系 进行 连接 操作 
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这 个 A 和 C 的 关系 包含 了 所 有 有 关 B 的 约束 的 信息 。 这 个 关系 影响 了 剩余 网 络 
的 解 。 

关于 B 的 初始 约束 被 A 和 C 的 新 约束 取代 。 因 为 不 含 变 量 B 所 以 解 剩 下 的 网 络 就 
会 更 简单 。 并 记得 到 约 简 网 络 的 一 个 解 后 ， 然 后 通过 连接 关系 构造 一 个 包含 变量 B 
的 解 。 < 

图 4-5 给 出 了 消除 变量 的 递归 算法 VE_CSP， 该 算法 可 以 找到 一 个 CSP 问题 的 所 有 解 。 

递归 的 终止 条 件 是 仅 有 一 个 变量 剩余 的 时 








候 。 这 种 情况 下 (第 8 行 )， 当 且 仅 当 在 最 后 的 连 | y Peare VECSE, © 
接 关系 中 有 “ 行 " 存 在 时 才 有 解 存在 。 注 意 这 些 关 | 3， v: 变量 集合 
系 是 所 有 关系 在 一 个 单独 变量 上 的 体现 ， 因 此 这 | 4: C V 上 的 约束 集合 
些 关系 是 这 个 变量 合法 值 的 集合 。 这 些 关系 的 连 ” ie ead 
接 就 是 这 些 集合 的 交集 。 :让 Y 仅 包含 一 个 元 素 then 
在 非 终止 条 件 下 ， 变 量 X 被 选择 并 消除 (第 SS 
10 行 )。 变 量 的 选择 不 影响 算法 的 正确 性 ， 但 却 : select 变量 X， 并 删除 
影响 算法 的 效率 。 为 了 消除 变量 X， 算 法 将 X | KOVY yax 
的 影响 传递 到 那些 和 X 直接 相关 的 变量 上 。 这 | 1s” tec, 中 所 有 约束 的 连接 
部 分 是 将 所 有 包含 X 的 关系 进行 连接 操作 (第 13 let RR 投影 到 非 X 变量 的 结果 
FD, RER X 投影 出 结果 关系 (第 14 行 )。 这 样 |1 一人 CS CON CD UIRD 
就 构造 出 一 个 简化 的 问题 ( 少 了 一 个 变量 )， 且 这 [一 
个 问题 可 以 被 递归 解决 。 为 了 得 到 X 的 可 能 取 ” 图 45 CSP 问题 的 变量 消除 法 


值 ， 算 法 将 具有 关系 R( 该 关系 定义 了 美的 影响 ) 的 简化 问题 的 解 进行 连接 。 

如 果 仅 仅 想 得 到 一 个 解 ， 那么 算法 将 返回 连接 操作 后 的 一 个 元 素 ， 而 不 是 返回 Rm 
S。 不 论 算 法 返回 了 哪个 元 素 ， 这 个 元 素 都 被 确保 是 解 的 一 部 分 。 如 果 算 法 中 R 的 任何 值 
都 不 包含 元 组 ， 那 么 说明 无 解 。 

VE 算法 的 有 效 性 取决 于 变量 选择 的 顺序 。 中 间 结 构 ( 在 变量 的 中 间 关 系 上 体现 ) 不 取 
决 于 关系 的 实际 内 容 ， 但 是 取决 于 整个 网 络 的 图 形 结构 。 算 法 的 有 效 性 可 以 通过 考虑 图 形 
化 结构 来 决定 。 通 常 ，VE 算法 在 约束 网 络 稀 朴 的 情况 下 是 有 效 的 。 对 于 一 个 特定 的 变量 
顺序 ， 返 回 最 大 关系 下 的 变量 数 可 以 称 之 为 这 个 变量 顺序 下 图 形 的 树 宽 (treewidth)。 一 个 
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图 形 的 树 宽 则 是 任意 顺序 下 最 小 树 宽 。VE 的 时 间 复 杂 度 在 树 宽 上 是 指数 的 ， 在 变量 数 上 
是 线性 的 。 本 章 4. 4 节 中 的 搜索 方法 在 变量 数 上 就 是 指数 的 。 
选择 一 个 消除 顺序 从 而 产生 最 小 树 宽 是 一 个 NP 难 问题 。 尽 管 如 此 ， 还 是 存在 一 些 好 
的 启发 式 条 件 ， 最 常见 的 两 个 是 : 
© 最 小 因 式 (min-factor): 在 每 个 阶段 ， 选 择 能 产生 最 小 关系 的 变量 。 
。 最 小 缺损 (minimum deficiency) 或 最 小 填充 (minimum fill) ， 在 每 个 阶段 ， 选 择 能 
使 剩余 的 约束 网 络 添加 最 小 数量 弧 的 变量 。 和 XX 在 一 个 关系 中 ， 且 不 和 其 他 变量 
在 一 个 关系 中 的 变量 的 数 称 为 变量 X 的 缺失 。 这 可 以 理解 为 如 下 含义 : 对 于 能 产 
生 大 关系 的 变量 ， 只 要 确保 不 使 网 络 更 复杂 ， 那么 是 可 以 删除 它 的 。 
对 比 最 小 因 式 条 件 ， 最 小 缺损 常常 能 被 经 验 性 地 找到 ， 从 而 给 出 一 个 更 小 的 树 宽 ， 但 
是 更 难 计 算 。 
VE 方法 也 可 以 和 弧 一 致 方法 组 合 使 用 , 每 当 VE 删除 一 个 变量 时 ， 弧 一 致 方法 都 可 
以 进一步 简化 网 络 。 这 种 方式 可 以 产生 较 小 的 中 间 表 格 。 


4.8 局 部 搜索 


之 前 各 节 研 究 的 算法 都 是 系统 地 搜索 了 整个 空间 。 如 果 空 间 是 有 限 的 ,那么 算法 或 者 
找到 一 个 解 ， 或 者 告知 无 解 。 但 是 一 些 搜索 空间 对 于 系统 搜索 来 说 过 于 庞大 ， 甚 至 有 可 能 
是 一 个 无 限 的 空间 。 而 在 合理 的 时 间 内 ， 系 统 搜索 不 能 遍历 整个 空间 并 给 出 一 个 有 意义 的 
结果 。 接 下 来 本 节 阐 述 的 方法 将 试图 在 这 些 非常 庞大 的 空间 内 运行 。 这 些 方 法 不 是 系统 地 
搜索 整个 搜索 空间 ， 它 们 被 设计 成 在 一 个 平均 范围 内 快速 地 寻找 解 。 这 类 方法 不 能 肯定 保 
证 解 被 找到 ， 或 者 肯定 存在 一 个 解 ， 甚 至 不 能 证 明 问 题 无 解 。 对 于 那些 已 经 知道 有 解 或 者 
可 能 有 解 的 应 用 往往 选择 这 类 方法 。 





局 部 搜索 方法 开始 时 先 完整 地 赋 
值 ， 即 对 每 一 个 变量 赋 一 个 的 值 ， 进 1: garg LocalSearch(V, dom, C) 
而 试图 迭代 地 提升 这 套 赋值 质量 ， 提 V: 变量 集 全 
升 的 手段 包括 阶梯 性 提升 、 随 机 性 选 :doms ite. Bi dom(X) 为 变量 M 
取 或 者 重新 选择 一 套 赋值 。 当 前 提出 | o oum eS 
了 多 种 局 部 搜索 策略 。 面 对 运筹 学 和 : 满足 约束 的 完整 赋值 
i eee: 
针对 CSP 问题 图 4-6 给 出 了 通用 for each 变量 X do 
的 局 部 搜索 算法 。A 代表 对 每 个 变量 | 1 wae AEALARH ATE MNÄRNRI d 
赋 一 个 值 。 每 次 循环 的 开始 为 每 个 变 : 选择 一 个 变量 Y 并 且 选 择 一 个 值 V, VEdom(Y) 
量 赋 随 机 值 。 这 种 赋值 第 一 次 执行 叫 。 | 1 ea RADR then 
做 随机 初始 化 (random initialization), retarn A : 
外 部 循环 的 每 次 迭代 称 为 一 次 尝试 18, until 终止 
(try)。 实 施 一 个 新 尝试 的 通用 方法 就 是 图 4-6 ”为 CSP 问题 寻找 一 个 解 的 局 部 搜索 


执行 一 次 随机 重启 (random restart). 
一 种 代替 随机 初始 化 的 方法 是 使 用 一 个 构造 启发 式 条 件 来 猜测 一 个 解 ， 然 后 迭代 
地 改进 。 

在 赋值 空间 内 while 循环 里 执行 的 是 一 个 局 部 搜索 (local search)， 或 者 说 是 一 次 游 走 
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(walk)。 对 当前 赋值 S， 考 虑 其 邻居 (Cneighbor)， 并 从 中 选择 一 个 邻居 作为 下 一 次 的 当前 
赋值 。 在 图 4-6 中 ， 一 个 全 赋值 的 邻居 是 那些 与 全 赋值 的 某 一 单个 变量 值 不 同 的 赋值 。 针 
对 邻居 集合 ， 不 同 的 选择 会 产生 不 同 的 搜索 算法 。 

在 赋值 上 的 局 部 搜索 一 直 执 行 直到 找到 满意 的 赋值 为 止 ， 或 者 是 执行 到 终止 条 件 被 满 
足 。 终 止 条 件 决定 了 何 时 停止 当前 的 局 部 搜索 并 且 执行 一 个 随机 重启 ， 即 用 新 的 赋值 来 重 
新 启动 。 对 于 终止 条 件 ， 最 简单 的 设 定 就 是 规定 其 执行 确定 次 数 的 循环 。 

该 算法 不 能 保证 一 定 会 停止 。 如 果 无 解 ， 那么 算法 将 永远 执行 下 去 。 算 法 也 很 可 能 在 
搜索 空间 的 边缘 被 困 住 。 一 个 算法 每 当 有 解 的 时 候 总 能 找到 一 个 答案 ， 那 么 这 个 算法 是 完 
备 的 (complete)。 因 此 上 述 算 法 是 不 完备 的 。 

该 算法 的 一 个 实例 是 随机 采样 (random sampling) 。 随 机 采样 算法 将 while 内 的 终止 条 
件 置 为 真 ， 因 此 内 部 while 循环 将 不 会 被 执行 。 随 机 采样 将 在 外 部 循环 不 断 地 选取 随机 赋 
值 直 到 寻找 到 一 个 满足 约束 的 赋值 ， 和 否则 算法 不 会 停止 。 随 机 采样 的 方法 从 意义 上 来 讲 是 
完备 的 ， 只 要 给 定 充 足 的 时 间 ， 如 果 有 解 存在 时 能 确保 找到 一 个 解 ， 但 是 在 时 间 上 却 没 有 
ELR., 算法 效率 低 。 算 法 的 效率 仅 取决 于 域 大 小 和 解 个 数 这 两 个 元 素 的 乘积 。 

算法 的 另 一 个 实例 是 随机 游 走 (random walk)。 在 这 个 算法 中 ， 只 有 找到 一 个 满意 的 
赋值 ( 即 ，while 内 终止 条 件 总 为 假 且 没有 随机 重启 ) 时 ， 才 会 跳出 while 循环 。 在 while 循 
环 内 ,算法 随机 地 选择 一 个 变量 和 一 个 值 。 从 意义 上 来 讲 ， 随 机 游 走 和 随机 采样 是 相同 
的 ， 都 是 完备 的 。 算 法 在 每 步 采 用 的 时 间 都 少 于 为 所 有 变量 重新 采样 ， 但 是 却 比 随机 采样 
消耗 更 多 步 ， 主 要 取决 于 解 的 分 布 。 当 变量 域 的 大 小 不 同时 ， 需 要 应 用 随机 游 走 算法 的 各 
种 变 体 。 随 机 游 走 算法 可 以 随机 选择 一 个 变量 然后 随机 选择 一 个 值 ， 也 可 以 成 对 地 随机 选 
择 变量 和 值 。 当 有 一 个 较 大 的 域 时 ， 更 可 能 选择 算法 的 后 一 种 变 体 。 


4.8.1 和 迭代 最 佳 改进 


在 迭代 最 佳 改进 (iterative best improvement) 方 法 中 ， 当 前 被 选择 节点 的 邻居 节点 是 
能 够 优化 评估 函数 (evaluation function) Ay A. FER BE F RE (greedy descent) 法 中 ， 被 选 
择 的 邻居 节点 是 能 最 小 化 评估 函数 的 节点 。 当 目标 最 大 化 时 ， 这 也 被 称 为 血 山 (hill climb- 
ing) Hye Mae EH (greedy ascent) 法 。 通 常 我 们 只 考虑 最 小 化 ， 如 果 想 最 大 化 一 个 量 ， 
可 以 选择 最 小 化 该 量 的 “ 否 ”。 . 

迭代 最 佳 改进 需要 一 个 评估 每 个 整体 赋值 的 方法 。 对 于 CSP 问题 ， 一 个 常见 的 评估 
函数 就 是 最 小 化 在 全 赋值 下 违反 的 约束 的 数量 。 一 个 被 违反 的 约束 可 以 称 为 一 个 冲突 
(conflict) 。 当 评估 函数 是 冲突 数 时 ， 解 则 为 使 得 评估 为 零 的 一 个 全 赋值 。 有 时 也 通过 一 些 
约 东 的 权重 来 重 定义 评估 函数 。 

局 部 最 优 (local optimum) 是 一 个 赋值 ， 在 该 赋值 下 的 邻居 节点 不 能 够 提升 评估 函数 。 
在 贪 禁 下 降 法 中 ， 局 部 最 优 就 是 局 部 最 小 ;: 在 仿 禁 上 升 法 中 ， 局 部 最 优 就 是 局 部 最 大 。 

【 例 4-25) 在 例 4-8 配送 时 序 安排 问题 中 。 假 设 梯 度 下 降 初 始 于 这 样 的 赋值 ; A=2, 
B= 二 2，C 二 3,，D 二 2,，E 二 1。 因 为 它 不 满足 A 了 关 B，B 关 D 和 CD， 所 以 对 这 个 赋值 产生 
一 个 为 3 的 评估 。 用 最 小 评估 得 到 了 它 的 邻居 节点 B= 二 4， 此 时 因为 只 有 C 二 D 没有 被 满 
足 ， 因 此 产生 了 为 1 的 评估 。 此 时 已 经 是 局 部 最 小 。 接 下 来 一 个 随机 游 走 将 DD 变 为 4， 这 
时 产生 了 为 2 的 评估 。 将 A 变 为 4， 产 生 一 个 为 2 的 评估 ,将 B 变 为 2， 产生 了 为 零 的 评 
估 。 这 样 就 找到 了 一 个 解 。 

下 面 给 出 通过 游 走 得 到 的 赋值 轨迹 : 
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当 多 个 赋值 可 以 得 到 相同 的 评估 时 ， 不 同 的 初始 化 或 者 不 同 的 选择 将 给 出 不 同 的 结果 。 本 

如 果 变 量 有 小 的 有 限 域 ， 当 选择 邻居 时 ， 局 部 搜索 可 以 考虑 变量 其 他 所 有 的 值 。 如 果 变 
量 的 域 很 大 ， 考 虑 其 余 所 有 的 值 则 代价 会 很 高 。 一 个 替换 的 策略 是 只 考虑 一 个 变量 的 一 部 分 
的 变量 值 ， 通 常 是 接近 的 值 。 有 时 为 了 选择 一 个 替换 值 ， 会 使 用 一 些 颇具 匠心 的 方法 。 

典型 的 局 部 搜索 方法 是 考虑 当前 赋值 的 最 相 邻 的 赋值 ， 即 使 这 个 赋值 与 当前 赋值 是 相 
等 的 或 者 是 更 差 的 。 通 常 快速 地 做 出 选择 比 花 大 量 时 间 做 出 最 佳 选择 的 效果 更 好 。 对 邻居 
的 选择 有 多 种 变化 方式 : 

D 将 变量 和 值 一 起 选择 。 在 任意 变量 的 所 有 不 同 赋值 中 ， 选 择 一 个 能 使 评估 函数 最 
小 化 的 赋值 。 如 果 能 使 得 评估 函数 最 小 化 的 赋值 多 余 一 个 ， 那 么 在 它们 中 随机 选择 一 个 。 

2) 先 选择 一 个 变量 ， 然 后 选择 它 的 值 。 对 于 选择 变量 来 说 ， 有 很 多 种 可 能 性 : 

。 掌握 每 个 变量 涉及 了 多 少 个 不 被 满足 的 约束 ， 选 择 一 个 涉及 了 最 多 不 满足 的 约束 

的 变量 . 

。 随机 选择 一 个 涉及 了 任意 不 被 满足 的 约束 的 变量 。 

。 随机 选择 一 个 变量 。 

一 旦 变量 选 定 后 ,算法 就 可 以 选择 变量 值 了 ， 这 个 变量 值 既 可 以 是 产生 最 佳 评估 值 的 
值 ， 也 可 以 是 随机 选取 的 一 个 值 。 

3) 随机 选取 变量 或 者 变量 值 ， 如 果 能 提升 评估 ， 那 么 就 接受 这 个 改变 。 

这 三 种 选择 中 ， 成 对 地 优化 变量 -变量 值 比 其 他 两 种 有 更 好 的 效果 , 但 是 需要 花费 更 
多 的 计算 。 尽 管 一 些 理论 性 结果 存在 ， 但 是 在 实际 中 为 了 更 好 地 运行 ， 选 择 哪 种 方式 则 是 
经 验 问题 。 


4.8.2 随机 算法 


迭代 最 佳 改 进 对 当前 赋值 随机 地 选择 了 最 好 邻居 集中 的 一 个 邻居 ， 也 可 以 用 以 下 两 种 
随机 方式 来 跳出 局 部 最 小 值 : 
。 随机 重启 ， 所 有 变量 的 值 被 随机 选择 。 这 使 得 搜索 从 搜索 空间 内 的 一 个 完全 不 同 
的 部 分 再 次 开始 。 
。 随机 游 走 ， 采 用 一 些 随机 移动 ， 其 中 择 和 人 一 些 优 化 移动 。 在 贪 禁 下 降 中 ， 该 操作 
允许 上 升 的 移动 ， 这 样 可 以 使 随机 游 走 跳出 局 部 最 小 值 。 
随机 游 走 是 一 个 局 部 随机 移动 ， 而 随机 重启 是 一 个 全 局 随机 移动 。 当 问题 涉及 很 多 变 
量 时 ， 随 机 重启 消耗 代价 大 。 
利用 随机 移动 的 一 种 混合 贪 焚 下 降 法 是 一 类 算法 的 实例 ， 这 类 算法 称 为 随机 局 部 搜索 
(stochastic local search) 。 
但 因 搜 索 空 间 常 常 有 成 千 上 万 的 维度 ， 且 每 一 维 都 有 一 个 离散 值 的 集合 ， 所 以 很 难 将 
算法 执行 的 搜索 空间 可 视 化 。 一 些 直觉 的 结果 可 以 从 低 维 问题 中 收集 到 。 考 虑 图 4-7 中 的 
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两 个 一 维 搜索 空间 ， 在 图 中 想 要 得 到 最 小 值 。 假 设 可 以 通过 对 当前 位 置 进行 向 左 或 向 右 的 
一 个 小 的 移动 来 获得 邻居 位 置 。 为 了 在 搜索 空间 (a) 内 寻找 全 局 最 小 的 值 ， 我 们 希望 利用 
随机 重启 的 贪 禁 下 降 法 来 快速 获得 这 个 最 优 值 。 一 旦 随机 选择 找到 了 最 深 的 谷中 的 一 点 ， 
那么 贪 殖 下 降 将 会 快速 趋向 于 全 局 最 小 。 因 为 许多 随机 移动 都 被 要 求 跳出 当前 的 一 个 局 部 
极 值 ， 所 以 随机 游 走 法 在 搜索 空间 (a) 中 就 不 会 有 很 好 的 效果 。 但 是 ， 随 机 重启 在 搜索 空 
间 (b) 中 就 会 被 快速 地 困 在 饮 齿 的 峰值 上 ， 且 不 能 得 到 好 的 结果 。 但 是 ， 贪 禁 下 降 和 随机 
游 走 的 组 合 就 可 以 跳出 这 些 局 部 极 值 ， 而 且 使 用 一 次 移动 或 者 两 次 移动 可 能 就 足够 跳出 这 
个 局 部 极 值 。 因 此 ， 随 机 游 走 在 搜索 空间 (b) 中 就 有 很 好 的 效果 。 
搜索 空间 (a) 搜索 空间 O) 


图 4-7 两 个 寻找 最 小 值 的 搜索 空间 


以 上 呈现 的 局 部 搜索 是 没有 存储 的 ， 在 执行 的 过 程 中 不 记录 搜索 行为 。 用 存储 来 提升 局 
部 搜索 的 一 种 简单 方法 就 是 禁忌 表 (tabu list)， 这 个 禁忌 表 中 存 有 最 近 被 更 改过 的 变量 -变量 
值 。 禁 忌 表 的 思想 是 当选 择 一 个 新 的 赋值 时 ， 不 得 选择 禁忌 表 中 的 变量 -变量 值 。 该 方法 阻 
止 了 在 一 些 赋值 中 不 断 循环 。 禁 忌 表 的 大 小 一 般 是 一 个 小 的 固定 值 ， 而 禁忌 表 的 大 小 也 是 可 
以 被 优化 的 参数 。 当 禁忌 表 大 小 为 1 时 ， 等 价 于 不 允许 同样 的 赋值 被 立即 重新 访问 。 

各 种 算法 的 不 同 之 处 在 于 它们 采用 了 多 少 工作 量 来 确保 最 佳 改 进 。 举 一 个 极端 的 情 
况 ， 算 法 在 选择 新 赋值 时 可 以 确保 给 出 的 是 相对 于 所 有 邻居 的 最 佳 改 进 。 另 一 个 极端 的 情 
况 是 ,算法 随机 地 选取 一 个 新 的 赋值 ， 并 且 拒 绝 使 情况 更 糟 的 赋值 。 本 节 的 剩余 部 分 将 给 
出 一 些 典 型 算法 ， 各 种 算法 的 不 同 之 处 在 于 它们 付出 了 多 少 计算 工作 量 来 确保 完成 最 佳 改 
进 。 哪 个 方法 能 取得 最 好 的 效果 通常 是 一 个 经 验 问题 。 

1. 常用 的 改进 手段 

第 一 种 方法 总 是 成 对 地 选择 变量 -变量 值 来 完成 最 佳 改进 。 最 朴素 的 办 法 就 是 线性 地 
扫描 每 个 变量 和 它 的 每 个 变量 值 ， 然 后 对 比 当 前 的 所 有 变量 的 赋值 决定 哪个 赋值 能 使 得 不 
被 满足 的 约束 数量 最 少 ， 进 而 选择 一 个 能 产生 最 佳 改 进 的 变量 -变量 值 对 ， 即 使 这 个 改进 
是 有 人 负面 影响 的 。 当 变量 数 为 n， 平均 域 大 小 为 &， 一 个 赋值 的 邻居 数 为 > 时 ， 这 一 步 的 
复杂 度 是 O(ndr)。 

一 个 更 精细 的 蔡 换 策略 是 设置 一 个 变量 -变量 值 的 优先 队列 。 对 于 任意 的 变量 X, hv 
在 X 的 域内 ， 并 且 在 当前 赋值 下 变量 X 没有 被 赋值 为 wv， 那么 (X，w) 对 就 将 被 填 入 优先 
队列 。《(X，wv) 的 权重 为 当前 完整 赋值 的 评估 减 去 将 X 替换 为 上 的 完整 赋值 的 评估 。 也 就 
是 说 ， 它 包含 了 每 个 替换 值 的 评估 变化 。 在 每 个 阶段 ， 算 法 选择 一 个 最 小 权重 值 ， 这 个 值 
则 是 邻居 所 能 提供 的 最 佳 改 进 。 

一 旦 变量 X 被 赋予 一 个 新 值 ， 那 么 所 有 变量 中 有 多 个 权重 将 被 改变 ， 必 须 重新 计算 
后 插入 优先 队列 中 。 当 被 赋予 值 时 ， 被 更 改 权重 的 那些 变量 是 由 于 这 个 新 值 而 出 现在 
一 个 被 满足 或 不 被 满足 约束 中 的 变量 。 
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当 变量 数 为 n， 平均 域 大 小 为 4， 一 个 赋值 的 邻居 数 为 + 时， 算法 这 一 步 的 复杂 度 是 
O(log nd+rdlog nd). 

由 于 算法 在 每 次 都 要 确保 最 大 的 改进 ， 因 此 在 掌握 数据 的 结构 方面 花费 了 太 多 时 间 。 

2. 两 阶段 选择 

一 个 替换 策略 是 将 成 对 选择 变量 -变量 值 策 略 进行 分 割 ， 首 先 选择 一 个 变量 进行 更 改 ， 
然后 再 选择 一 个 值 。 

该 算法 也 有 一 个 变量 优先 队列 ， 队 列 中 变量 的 权重 为 变量 所 参与 的 冲突 约束 数 。 每 次 
算法 都 选择 一 个 具有 最 大 权重 的 变量 。 一 旦 变量 被 选中 ， 那 么 这 个 变量 将 被 赋予 一 个 能 最 
小 化 约束 冲突 数 的 值 。 作 为 最 新 赋值 的 一 个 结果 ， 每 个 变量 的 约束 冲突 的 值 也 会 发 生 改 
变 ， 其 余 参 与 到 这 个 冲突 的 变量 的 权重 也 需要 被 更 改 。 

算法 这 一 步 的 复杂 度 是 O(log n+rlog z) 。 对 比 成 对 地 选择 最 佳 变量 -变量 值 方法 ， 该 
算法 在 每 次 移动 中 做 的 工作 量 较 小 ， 但 在 固定 时 间 间 隔 内 需要 完成 更 多 的 移动 。 尽 管 这 些 
移动 倾向 于 完成 较 小 的 改进 ， 但 是 在 移动 数 和 每 次 移动 的 复杂 度 两 者 间 的 权衡 需要 经 验 性 
的 评估 。 

3. 任意 冲突 

相对 于 选择 最 佳 的 移动 ， 一 个 更 为 简单 的 替换 策略 是 选择 参与 约束 冲突 的 任意 变量 ， 
并 改变 它 的 值 。 在 每 一 次 移动 随机 任意 选择 一 个 参与 到 不 满足 约束 的 变量 。 该 算法 将 赋予 
这 个 变量 一 个 能 最 小 化 约束 冲突 数 的 值 。 

为 了 完成 这 个 替换 策略 ， 我 们 需要 一 个 数据 结构 ， 用 这 个 结构 来 表示 涉及 一 个 约束 冲 
突 的 变量 集合 C。 该 数据 结构 应 被 设计 为 可 以 快速 选择 C 中 的 一 个 随机 成 员 。 当 X 的 值 发 
生 改 变 时 ， 每 个 包含 X 的 约束 都 被 检查 。 对 于 每 个 变 为 不 被 满足 的 约束 ， 所 有 包含 在 该 
约束 中 的 变量 都 被 添加 到 C 中 。 对 于 每 个 变 为 满足 的 约束 ， 存 在 包含 在 该 约束 内 且 不 包含 
在 另 一 个 不 被 满足 的 约束 中 的 变量 ， 将 这 些 变量 从 C 中 删除 。 检 查 一 个 变量 是 否 包含 在 另 
一 个 冲突 约束 中 的 方法 是 掌握 每 个 变量 的 一 组 冲突 数 ， 这 个 数 在 一 个 约 东 变 为 不 被 满足 时 
将 增加 ， 在 约束 变 为 被 满足 时 将 减少 。 

可 以 将 随机 移动 、 随 机 重启 和 禁忌 表 机 制 与 上 述 算法 组 合 使 用 。 

4. 模拟 退火 

最 后 一 种 方法 将 不 再 获取 约束 冲突 数据 的 结构 ， 取 而 代 之 的 是 随机 地 选择 一 个 邻居 ， 
然后 对 于 新 赋值 选择 接受 还 是 拒绝 。 

退火 是 冶金 术 中 的 一 个 过 程 ， 在 金属 慢 慢 冷却 的 过 程 中 ;使 它们 达到 一 个 低能 量 的 状 

态 。 模 拟 退 火 是 一 种 类 似 最 优化 的 方法 。 它 用 热力 学 的 术语 来 描述 。 随 机 运动 对 应 了 高 
温 ; 在 低温 条 件 下 则 有 很 小 的 随机 性 。 模 拟 退 火 的 执行 过 程 是 从 在 高 温 下 进行 随机 搜索 开 
始 ， 然 后 温度 慢 慢 降 低 ， 最 后 到 达 零 度 时 变 成 纯 贪 禁 下 降 。 随 机 性 应 该 倾向 于 跳出 局 部 极 
值 ， 并 且 找 到 一 个 低 启 发 值 作 为 邻 域 : 贪 禁 下 降 的 过 程 中 将 导致 局 部 最 小 。 高 温 条 件 比 低 
温 条 件 更 有 可 能 导致 逐步 恶化 。 
” ”模拟 退火 掌握 了 当前 变量 的 一 个 赋值 情况 。 在 每 一 移动 中 ， 随 机 选取 一 个 变量 ， 并且 随 
机 选取 一 个 值 。 如 果 对 该 变量 的 赋值 是 一 个 改进 或 者 它 没有 增加 约束 冲突 数 ， 那 么 算法 接受 
这 个 赋值 ， 并 依 此 作为 当前 的 新 赋值 。 另 外 ,算法 概率 性 的 接受 赋值 ， 这 取决 于 当前 的 温度 
和 新 赋值 比 当 前 赋值 差 了 多 少 。 如 果 当 前 的 改变 不 被 接受 ， 那 么 当前 赋值 也 不 会 被 改变 。 

为 了 控制 变化 到 什么 程度 是 可 以 被 接受 的 ， 设 定 一 个 正 实 值 的 温度 T。 假设 A 是 当前 
的 一 套 赋值 。 假 设 CAE A 被 最 小 化 的 评估 值 。 为 了 解决 约束 问题 h 通常 为 约束 冲突 
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数 。 模 拟 退 火 随机 地 选择 一 个 邻居 ， 给 出 新 的 赋值 A '。 如 果 h(A') 壹 h(A)， 算法 接受 赋 
值 A， 并 把 其 作为 新 的 赋值 。 和 否则 ， 这 个 赋值 仅 以 下 述 这 个 概率 被 随机 接受 


h(CAY—hCA'Y) 
en AAT 


这 样 ， 如 果 h(A') 与 h(A) 很 接近 ， 那 么 被 接受 的 可 能 性 会 更 大 。 如 果 温 度 很 高 ， 那 么 指 
数 趋 近 于 0， 接 受 概率 则 接近 1。 当 温度 接近 0 时 ， 指 数 接近 一 ce， 且 接 受 概率 接近 0。 

图 4-8 中 给 出 了 不 同 温度 下 和 逐步 变 差 的 接受 概率 。 图 中 , k BE BAR ACA’) —ACAD= 
k. iin, WREE H 10(T=10), KEH l-worse (h(a) 一 h(a') 二 一 1) 的 接受 概率 是 
e "10.9。 改 变 为 2-worse 的 接受 概率 为 e% 0. 82。 如 果 温 度 是 1， 改变 为 1-worse 的 
接受 概率 是 e 1=*0.37。 如 果 温 度 是 0. 1， 改 变 为 1-worse 的 接受 概率 是 e "a0. 000 05。 
这 个 温度 下 ， 它 本 质 上 仅 是 一 个 提升 赋值 或 维持 不 变 的 操作 。 

如 果 像 T=10 这 种 情况 ， 温度 很 高 时 ， 算 法 倾向 于 接受 变 差 程度 很 小 的 移动 ; 不 倾向 
于 接受 变 差 程 度 很 大 的 移动 。 算 法 对 于 改进 的 移动 有 轻微 的 偏好 。 当 温度 减少 时 (例如 ， 
当 T= 二 1 时 )， 尽 管 变化 的 移动 是 有 可 能 的 ,但 是 可 能 性 较 小 。 当 温度 非常 小 时 (例如 ， 当 
T=0.1 时 )， 选 择 一 个 变 差 的 移动 将 非常 罕见 。 

模拟 退火 需要 一 个 退火 计划 (annealing schedule)， 这 个 计划 说 明 在 搜索 的 过 程 中 ， 温 
度 是 怎样 下 降 的 。 几 何 冷 却 法 是 一 个 被 广泛 应 用 的 计划 。 例 如 ， 几 何 冷却 计划 开始 于 温度 
10， 且 每 次 移动 乘 以 0. 97， 在 100 次 移动 后 温度 将 变 为 0. 48。 找 到 一 个 好 的 退火 计划 是 
一 种 艺术 。 


接受 概率 
l-worse 2-worse 3-worse 
10 0.9 0. 82 0. 74 
1 0. 37 0. 14 0, 05 








0. 25 0.018 0. 000 3 0. 000 006 
0.1 0. 000 05 2X 107° 9x107 


4-8 模拟 退火 接受 更 差 移动 的 概率 
4.8.3 评估 随机 算法 


当 随 机 算法 给 出 一 个 不 同 的 结果 和 一 个 不 同 的 运行 时 间 时 ， 即 使 是 对 同样 的 问题 ， 这 
些 算法 也 很 难 相 互 比 较 。 当 有 时 算法 不 能 找到 一 个 解 时 ， 上 比较 起 来 就 显得 更 为 困难 ， 这 时 
算法 要 么 永远 运行 下 去 ， 要么 终止 于 一 个 任意 位 置 。 

不 幸 的 是 ， 像 运行 时 间 的 平均 值 或 中 位 值 ， 这 类 汇总 统计 在 比较 算法 上 并 不 是 很 有 
效 。 例 如 ， 如 果 想 用 运行 时 间 的 平均 值 来 比较 算法 ,那么 就 必须 考虑 算法 运行 失败 的 时 候 
《没有 找到 解 ) 怎 样 计 算 平 均值 。 如 果 在 计算 平均 值 上 忽略 这 些 运 行 失败 的 情况 ， 那 么 随机 
地 选择 一 个 赋值 然后 就 停止 ， 这 类 算法 将 成 为 最 好 的 算法 ， 因 为 这 类 方法 几乎 都 失败 了 ， 
但 是 一 旦 成 功 了 ， 速 度 是 最 快 的 。 如 果 将 无 法 停止 的 算法 算 成 是 无 限时 间 ， 那么 所 有 算法 
都 存在 寻找 不 到 解 的 情况 ， 则 变 成 算法 平均 运行 时 间 都 是 无 限 的 。 如 果 把 规定 停止 时 间作 
为 无 停止 运行 的 时 间 ， 尽 管 允 许 在 更 快 地 找到 一 些 解 和 找到 更 多 的 解 之 间 寻 求 一 种 基本 的 
权衡 ， 但 以 此 方式 使 用 均值 的 评价 更 多 是 针对 停止 时 间 的 函数 ， 而 不 是 算法 本 身 。 

如 果 用 运行 时 间 的 中 位 数 来 比较 算法 ， 那 么 一 个 算法 以 非常 慢 的 速度 完成 问题 的 51 入 
会 比 另 一 个 以 非常 快 的 速度 完成 问题 的 49% 得 到 更 好 的 评价 ， 然 而 事实 上 后 一 个 算法 更 有 
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作用 。 这 个 问题 在 于 中 位 数 (50%) 是 一 个 随机 的 值 。 当 然 也 可 以 考虑 47% 或 者 87% 的 值 。 

对 于 一 个 实际 问题 ， 可 视 化 算法 运行 时 间 的 一 个 方法 是 使 用 运行 时 间 分 布 图 (run-time 
distribution) 。 该 分 布 在 单个 问题 上 能 够 体现 随机 算法 在 运行 时 间 方 面 的 变化 性 。 在 工 轴 
上 既 可 以 标注 为 移动 的 次 数 ， 也 可 以 标注 为 运行 的 时 间 。 对 于 z 轴 上 的 每 个 值 ，y 轴 表 示 
在 运行 时 间 内 或 移动 次 数 内 ， 算 法 解决 问题 的 次 数 或 解决 的 比例 。 因 此 ， 它 提供 了 一 个 票 
积 的 分 布 ， 这 个 分 布展 示 了 在 某 些 移动 数 上 或 者 某 些 运行 时 间 上 问题 多 长 时 间 被 解决 一 
次 。 例 如 ， 可 以 通过 y 轴 刻 度 的 30% 映 射 到 z 轴 上 的 值 ， 从 而 找到 运行 了 30% 的 运行 时 
间 。 运 行 时 间 分 布 图 可 以 通过 多 次 运行 算法 绘制 (或 近似 ) 出 来 (可 以 说 运行 100 次 是 粗糙 
近似 ，1000 次 是 合理 准确 地 绘制 )， 然 后 用 运行 时 间 进 行 排序 。 

【 例 4-26) 图 4-9 给 出 了 对 于 单个 问题 4 种 经 验 性 的 随机 算法 产生 的 运行 时 间 分 布 
图 。z 轴 以 对 数 指标 表示 了 算法 移动 次 数 。y 轴 表 示 在 1000 次 中 当前 问题 被 成 功 解决 的 实 
例 数 。 图 展现 了 在 同一 问题 上 的 4 个 运行 分 布 图 。 算 法 1 和 2 在 第 10 步 或 者 更 少 移动 的 
情况 下 完成 了 问题 的 40%。 算 法 3 在 执行 到 10 或 者 更 少 移动 的 情况 下 完成 了 问题 的 
50% 。 算 法 4 在 执行 到 10 或 者 更 少 移动 的 情况 下 完成 了 问题 的 12%。 算 法 1 和 2 在 58% 
的 时 间 内 能 找到 一 个 解 ， 算 法 3 在 80% 的 时 间 内 能 找到 一 个 解 ， 而 算法 4 总 能 找到 一 个 
解 。 这 仅仅 比较 了 移动 的 次 数 。 所 耗 时 间 会 是 更 好 的 度量 方式 , 但 是 对 于 小 问题 来 说 ， 度 
量 起 来 会 比较 困难 ， 并 且 还 取决 于 一 些 具体 的 手段 。 < 
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图 4-9 运行 时 间 分 布 图 。 这 是 运行 1000 次 的 运行 时 间 分 布 图 ， 每 次 运行 限制 在 1000 次 移动 以 内 。 工 轴 
以 对 数 指标 表示 了 算法 移动 次 数 ，y 轴 表 示 1000 次 中 成 功 解 决 数 。 这 个 是 CSP 样 例 中 Alspace. 
org 的 “调度 问题 1? 。 分 布 图 1 和 2 是 两 阶段 贪 歼 下 降 法 的 两 次 独立 的 运行 。 算 法 3 是 一 阶段 贪 
禁 下 降 法 。 算 法 4 是 使 用 随机 行走 的 贪 禁 下 降 法 ， 选 择 的 开始 节点 是 参与 到 约束 冲突 的 节点 (在 
Alspace. org 内 的 红色 节点 )， 变量 的 最 佳 值 以 50% 的 概率 被 选择 ， 否 则 选择 一 个 随机 值 


如 果 一 个 算法 的 运行 时 间 分 布 图 始终 处 于 另 一 算法 分 布 图 的 左上 方 ， 那么 就 说 第 一 个 
算法 严格 支配 第 二 个 算法 。 这 种 度量 方式 下 ， 往 往 两 个 算法 是 不 可 比 的 。 哪 个 算法 更 好 到 
决 于 所 能 接受 的 运行 时 间 和 找到 一 个 解 的 重要 性 。 

在 算法 执行 了 一 定量 的 移动 后 ， 我 们 则 可 以 用 运行 时 间 分 布 图 去 预测 若 使 用 随机 重启 
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后 该 算法 的 效果 。 直 观 地 说 ， 在 重启 发 生 时 ， 随 机 重启 将 重复 并 适当 缩减 分 布 图 的 左下 
角 。 如 果 和 运行 时 间 足 够 ， 在 执行 了 一 定量 贪 禁 下 降 的 移动 后 ， 使 用 随机 重启 的 策略 可 以 将 
那 行 有 时 能 找到 解 的 算法 变 成 总 是 能 找到 解 的 算法 。 

【 例 4-27] 图 4-9 中 ,算法 3 支配 算法 1 和 2。 算法 1 和 2 实际 上 是 相同 方法 在 相同 
设置 下 对 不 同 集合 的 执行 。 这 也 是 相同 的 随机 算法 在 相同 实例 上 多 重 运行 的 典型 错误 。 算 
法 3 在 移动 为 60 之 前 都 优 于 算法 4， 但 之 后 算法 4 较 好 。 

观察 图 片 ， 算 法 3 常常 在 它 最 先 的 4 或 5 次 移动 时 等 到 解 ， 之 后 就 没 那么 有 效 。 这 使 
我 们 想到 ， 可 在 算法 3 的 每 5 次 移动 后 设置 随机 重启 (每 次 重启 算 一 次 移动 ) 。 这 么 做 也 确 
实 使 得 算法 3 对 于 该 问题 实例 在 一 定 移动 数 下 支配 其 他 所 有 算法 。 尽 管 如 此 ， 因 为 随机 重 
启 是 代价 较 高 的 操作 ， 所 以 该 算法 未 必 是 最 有 效 的 ， 也 没有 必要 去 预测 该 算法 在 其 他 实例 
问题 上 的 效果 。 < 


4.8.4 局 部 搜索 中 利用 命题 结构 


如 果 CSP 问题 是 命题 可 满足 问题 ， 这 些 问题 由 二 元 变量 和 约束 子 句 构成 ， 那么 随机 
局 部 搜索 处 理 起 来 会 更 加 简单 。 因 为 以 下 三 个 原因 ， 局 部 搜索 的 每 一 步 都 会 变 得 更 加 
有 效 : 
。 因为 对 于 每 套 赋值 的 每 个 变量 ， 仅 有 一 个 替换 值 存在 ， 所 以 算法 不 必 去 搜索 替 
换 值 。 
。 在 不 被 满足 的 子 句 中 改变 任何 一 个 值 都 使 得 子 句 变 为 被 满足 的 。 这 就 使 得 子 句 很 
容易 被 满足 ， 但 是 这 可 能 导致 其 他 子 句 变 为 不 被 满足 的 。 
。 如 果 一 个 变量 被 更 改 为 true， 那 么 只 要 包含 它 的 否 的 那些 子 句 都 不 被 满足 。 类 似 
推断 变量 值 变 为 false。 这 使 子 句 的 索引 可 以 非常 快速 。 
任意 有 限 的 CSP 问题 都 有 可 能 被 转化 为 一 个 命题 可 满足 问题 。 具 有 域 tw ，…，vi} 的 
变量 了 可 以 被 转化 为 & 个 二 元 变量 {Yl «+, Ye “SY: 为 真 时 表示 Y 取 值 vw;:， 取 其 他 值 
时 为 假 。 每 个 Y; 可 以 被 称 为 一 个 指示 变量 (indicator variable) 。 在 每 个 约束 中 针对 每 个 为 
假 的 元 组 都 有 一 个 子 句 ， 该 子 句 指出 Y; 的 哪个 赋值 是 不 满足 约束 的 。 有 的 约束 也 指出 在 
Zj, Y; MY, 不 能 同时 为 真 。 也 有 约束 可 能 要 求 变 量 Y; 必须 为 true 。 将 CSP 问题 转化 
为 命题 可 满足 问题 有 三 点 潜在 优势 : 
。 每 个 局 部 移动 可 以 更 简单 ， 因 此 执行 起 来 更 为 有 效 。 
。 搜索 空间 被 扩展 。 实 际 上 在 找到 一 个 解 之 前 ， 可 以 不 止 一 个 Y; H true (对 应 了 变 
量 Y 有 多 个 值 ) 或 者 可 以 所 有 YY, 都 为 false (对 应 了 变量 Y 为 空 )。 这 就 是 说 ， 在 原 
问题 中 的 局 部 最 小 的 赋值 ， 在 新 问题 中 就 可 能 不 再 是 局 部 最 小 。 
。 相 比 其 他 类 型 的 CSP 问题 ， 命 题 可 满足 性 被 更 广泛 地 研究 。 由 于 研究 者 针对 命题 
可 满足 做 了 更 多 的 算法 研究 ， 所 以 当前 有 更 多 有 效 的 解决 办 法 。 
在 一 个 实际 问题 中 ， 这 种 转换 是 否 能 令 搜 索 有 更 好 的 效果 同样 也 是 一 个 经 验 问题 。 


4.9 基于 种 群 的 方法 


之 前 的 局 部 搜索 算法 都 是 维护 当前 一 个 单独 的 赋值 方案 。 本 节 研 究 的 算法 将 维护 多 个 
赋值 方案 。 第 一 种 方法 是 集束 搜索 ,维护 了 最 佳 的 上 个 赋值 方案 。 接 下 来 的 随机 集束 搜索 
将 概率 性 地 随机 选择 多 个 赋值 方案 。 在 受 生 物 进 化 启发 的 遗传 算法 中 , & 个 赋值 方案 组 成 
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一 个 相互 作用 的 种 群 ， 使 用 各 种 方法 将 该 种 群 进化 到 一 个 新 的 种 群 。 在 这 些 算法 中 ， 对 
每 个 变量 都 赋 一 个 值 的 全 赋值 被 称 为 个 体 (individual)， 且 当前 个 体 的 集合 称 为 种 群 (popu- 
lation) 。 

集束 搜索 (beam search) 是 一 个 类 似 于 迭代 最 佳 改进 的 方法 ,但 是 该 方法 不 是 维护 一 个 
赋值 ， 而 是 同时 维护 & 个 赋值 。 当 算法 找到 一 个 满足 约束 的 赋值 时 ， 则 会 报告 成 功 。 算 法 
的 每 个 阶段 都 会 选择 当前 个 体 的 & 个 最 佳 邻 居 ( 当 少 于 & 个 时 则 将 它们 全 部 选中 ) 且 同时 随 
机 选择 。 算 法 使 用 新 的 个 赋值 方案 的 集合 重复 执行 。 

集束 搜索 同时 考虑 了 多 个 赋值 方案 。 该 算法 对 存储 有 界 的 案例 比较 有 用 , 上 的 选择 取 
决 于 可 用 的 存储 空间 。 

随机 集束 搜索 (stochastic beam search) 是 集束 搜索 的 一 个 替换 策略 ， 不 适用 选择 最 佳 
k 个 个 体 的 策略 ， 而 是 随机 地 选择 & 个 个体 ， 更 倾向 于 选择 能 得 到 更 好 评估 的 个 体 。 这 样 
的 选择 需要 两 个 函数 ， 一 个 是 概率 选择 函数 ， 男 一 个 是 评估 函数 。 标 准 的 方法 是 使 用 吉 布 
斯 分 布 (Gibbs distribution) HÆ ik R% BF (Boltzmann distribution) ， 用 如 下 的 概率 比 
例 去 选择 一 个 赋值 方案 A: 

这 里 h(A) 是 评估 函数 ,TT 是 温度 。 

随机 集束 搜索 倾向 于 允许 在 & 个 个 体 中 具有 更 多 差异 性 ， 而 不 是 普通 的 集束 搜索 。 用 
生物 进化 学 的 术语 ， 评估 函数 反映 了 个 体 的 适应 度 ; 越 适 应 的 个 体 就 越 有 可 能 被 通过 ， 这 
意味 着 这 个 赋值 方案 的 一 部 分 在 下 一 种 群 中 是 好 的 。 随 机 集束 搜索 就 像 一 个 无 性 繁殖 的 过 
程 ， 每 个 个 体 给 出 了 具有 少量 变异 的 孩子 ， 然 后 随机 集束 搜索 处 理 这 些 具有 最 佳 适应 度 的 
存活 个 体 。 需 要 注意 的 是 ， 在 随机 集束 搜索 中 ， 一 个 个 体 可 能 被 随机 地 多 次 选择 。 

遗传 算法 (genetic algorithm) 进 一 步 完 善 了 类 演化 的 过 程 。 它 和 随机 集束 搜索 很 像 ， 
但 是 种 群 中 的 每 个 元 素 是 有 区 别 的 。 在 遗传 算法 中 ， 种 群 内 的 每 个 新 元 素 变 为 个 体 - 个 体 
父 代 的 成 对 组 合 。 尤 其 是 遗传 算法 选择 成 对 的 个 体 ， 针 对 子 代 变量 的 值 ， 某 些 值 从 其 中 一 
个 父 代 选取 ， 剩 下 的 值 从 另 一 个 父 代 选 取 ， 进 而 创作 一 个 新 的 个 体 。 这 一 过 程 有 点 类 似 于 
有 性 繁殖 的 DNA 的 拼接 过 程 。 

遗传 算法 中 ， 这 一 新 的 操作 被 称 为 交叉 (crossover)。 均 匀 交 叉 是 选择 两 个 个 体 ( 双 
亲 ) ， 创 造 两 个 新 个 体 称 为 子 代 (children) 。 在 一 个 子 代 中 ， 每 个 变量 的 值 都 来 自 双亲 中 的 
一 个 。 一 个 普通 的 方法 是 单 点 交叉 (one-point crossover) ， 该 方法 假设 变量 有 一 个 总 体 的 
排序 。 一 个 索引 i 被 随机 地 选择 ， 然 后 在 i 之 前 的 变量 的 值 从 一 个 父 代 中 选取 ,i 之 后 的 变 
量 的 值 从 另 一 个 父 代 选 取 ， 用 这 样 的 方式 来 构建 子 代 中 的 一 个 孩子 。 该 算法 交叉 操作 的 有 
效 性 取决 于 变量 的 整体 排序 。 变 量 的 排序 也 是 设计 遗传 算法 的 一 部 分 工作 。 

假设 有 一 个 & 上 个 (是 偶数 ) 个 体 的 种 群 。 一 个 基本 的 遗传 算法 需要 维护 & 个 个 体 (& 个 
个 体 共同 作为 一 代 ) ， 并 且 使 用 这 个 个 体 ， 通 过 如 下 步骤 产生 新 的 一 代 : 

。 随机 选择 个 体 对 ， 更 能 适应 的 个 体 被 选择 的 可 能 性 更 大 。 一 个 更 适应 的 个 体 比 另 

一 个 个 体 多 出 多 少 被 选择 的 可 能 性 这 主要 取决 于 不 同 的 适应 度 标准 和 一 个 温度 
参数 。 

。 对 每 一 个 体 对 执行 一 次 交叉 。 

。 对 于 一 些 随 机 选择 的 变量 ， 通 过 选择 一 RA ENET ME CREP) 

这 是 一 个 随机 游 走 的 移动 操作 。 
延续 这 种 处 理 直 到 创建 了 个 个 体 ， 并且 对 下 一 代 执 行 该 操作 ， 算 法 在 图 4-10 中 给 出 。 
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[B] 4-281 Bil 4-8 中 ,假设 我 们 使 用 了 和 例 4-25 一 样 的 评估 函数 ， 也 就 是 不 被 满足 的 


WARM. HAA=2, B=2, C=3, 
D=1, E=1 的 评估 值 为 4。 形 成 这 个 
较 低 的 评估 ( 较 少 不 被 满足 的 约束 )， 
主要 是 因为 二 1。 那 么 保留 这 个 值 的 
子 代 将 比 不 保留 这 个 值 的 子 代 更 有 可 
能 获得 更 低 的 评估 值 ， 更 有 可 能 存活 
(评估 值 越 小 代表 被 满足 的 约束 越 多 ) 。 
其 他 个 体 获得 较 低 评估 值 的 原因 可 能 
就 不 同 ， 人 例如， 个体 A 二 4，B=2， 
C=3, D=4, E=4W iF THAW 
4， 这 主要 是 由 于 前 四 个 变量 的 赋值 。 
同样 的 ， 子 代 保 留 这 个 性 质 比 不 保留 
更 有 适应 能 力 ， 更 可 能 存活 。 如 果 这 
两 个 个 体 进行 配对 ， 那 么 子 代 中 的 一 
些 个 体 将 会 继承 两 者 的 劣质 属性 ， 并 
且 将 死亡 。 子 代 中 的 一 些 个 体 也 将 会 
偶然 地 继承 两 者 的 优秀 属性 ， 将 有 较 
高 的 存活 机 会 。 < 

正如 在 其 他 的 随机 局 部 搜索 算法 
中 一 样 ， 设计 特征 和 评估 函数 是 困难 
的 ， 因 此 算法 不 能 摆脱 局 部 极 值 。 算 
法 的 有 效 性 对 描述 问题 的 变量 和 变量 
顺序 敏感 。 这 一 研究 工作 也 是 门 艺术 。 
在 其 他 的 许多 启发 式 算法 中 ， 进 化 算 
法 有 很 大 的 自由 度 ， 因 此 针对 良好 性 
方面 比较 难以 配置 和 调整 。 而 且 类 似 
自然 演化 的 过 程 容易 造成 误导 性 ， 因 
为 自然 界 演化 对 组 合 决策 和 最 优化 问 
题 给 出 的 并 不 总 是 最 佳 策 略 。 


1: procedure GeneticAlgorithm(V, dom, C, S, k) 
Inputs 
V: 变量 集合 
dom: FR, BM dom(X) 为 变量 X 的 域 
C: V 上 的 约束 集合 
S: 针对 温度 的 退火 计划 
k: 种 群 大 小 一 一 一 个 偶数 


Output 
满足 约束 的 完整 赋值 
Local 
Pop: WERE 
T: real 
Popek 个 完整 的 随机 赋值 
TT 是 根据 $ 被 赋予 的 值 
repeat 
if —#£ AE Pop WE C 中 的 所 有 约束 then 
return A 
Npop={} 
repeat £/2 times 
A,+RandomSelection(Pop, T) 
A,~«RandomSelection( Pop, T) 
N,» N,«Combine(A,, A,) 
Npop<-N pop{mutate(N,), mutate(N,)} 
Pop=-N pop 
根据 S 更 新 工 
until 终止 


: procedure RandomSelection(Pop, T) 


从 Pop 中 以 e “~ 的 概率 选择 A 
return A 


: procedure Combine(A,, A.) 


MIERE i, 1SI<|V| 

4 N= (CX, Suy) EAs FRU UMC Ky) EA j>) 
Ne (X=) EA, JÖ UX EA, j>il 
return N,, N: 





图 4-10 为 CSP 问题 寻找 一 个 解 的 遗传 算法 


大 量 研究 人 员 研 究 了 遗传 算法 在 真实 问题 上 的 实用 性 ， 并 得 出 了 一 些 有 价值 的 结论 。 


本 节 所 描述 的 只 是 遗传 算法 的 一 种 。 
4.10 最 优化 


通常 我 们 不 是 仅仅 考虑 存在 或 不 存在 可 能 世界 可 以 满足 约束 ， 而 是 想得到 一 个 最 好 的 


可 能 世界 。 在 可 能 世界 中 经 常 存在 一 个 偏好 (preference) 关 系 ， 我 们 需要 对 应 偏好 得 到 最 
好 的 可 能 世界 。 这 个 偏好 经 常 是 最 小 化 某 些 误差 。 

给 出 一 个 最 优化 问题 Coptimization problem) : 

。 一 个 变量 集 ， 每 个 变量 有 关联 的 域 ; 

。 一 个 目标 函数 (objective function)， 该 目标 函数 将 赋值 方案 映射 到 一 个 实数 ; 
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e 一 个 最 优化 标准 (optimality criterion) ， 用 该 准则 找到 一 个 能 最 大 化 或 最 小 化 目标 

函数 的 赋值 方案 。 

这 说 明 要 根据 最 优化 标准 来 找到 一 个 最 佳 的 赋值 方案 。 例 如 ， 最 优化 标准 就 是 最 小 化 
E tp KR. 

约束 优化 问题 (constrained optimization problem) 是 具有 强 约 束 的 最 优化 问题 ， 这 些 强 
约束 指明 了 变量 的 赋值 是 否 可 能 。 也 就 是 说 ， 需 要 找到 一 个 最 好 的 赋值 ， 该 赋值 满足 硬 
约束 。 

已 经 有 大 量 的 文献 对 最 优化 进行 了 研究 。 对 于 实际 的 有 约束 最 优化 问题 ， 也 存在 了 
很 多 技术 。 例 如 ， 线性 规划 是 一 类 有 约束 最 优化 技术 ， 这 里 变量 都 是 实 值 的 ， 目 标 函 数 
是 变量 组 成 的 一 个 线性 函数 ， 并 且 硬 约束 是 一 些 线性 不 等 式 。 这 里 我 们 不 详细 曾 述 这 些 
具体 的 技术 。 尽 管 这 些 技术 都 有 实际 应 用 ,但 是 在 所 有 优化 问题 的 空间 内 还 是 适应 性 有 
限 。 我们 只 说 明 一 些 通 用 技术 ， 这 些 技术 允许 更 多 的 通用 目标 函数 。 然 而 ， 要 解决 的 问 
题 恰好 是 某 些 具体 算法 中 的 一 类 ， 那 么 用 这 些 具 体 的 技术 会 比 用 这 里 提 到 的 通用 技术 效 
果 更 好 。 

在 约束 优化 问题 中 ,目标 函数 被 分 解 为 变量 子 集 的 函数 集 ， 称 为 软 约束 (soft con- 
straint) 。 软 约束 为 每 个 变量 子 集 的 赋值 方案 分 配 一 个 成 本 。 赋 值 方案 的 目标 函数 值 是 对 
于 给 定 软 约束 成 本 的 和 。 典 型 的 最 优化 标准 是 将 目标 函数 最 小 化 。 

与 硬 约束 一 样 ， 软 约束 是 一 个 变量 集 的 作用 域 (scope)。 软 约束 是 将 作用 域内 变量 的 
域 映 射 为 实数 的 一 个 函数 ， 称 之 为 评估 (evaluation) 。 因 此 ， 对 于 作用 域内 变量 的 赋值 方 
案 ， 该 函数 返回 的 是 一 个 实数 值 。 

【 例 4-29】 同 例 4-8 一 样 ， 假 设 必须 调度 一 组 配送 活动 。 但 是 不 同 于 硬 约束 ， 本 例 中 
在 配送 次 数 上 有 偏好 。 与 配送 次 数组 合 关联 的 成 本 就 是 本 例 中 的 软 约束 。 这 说 明 在 本 例 中 
要 找到 一 个 最 小 成 本 和 的 配送 计划 。 

假设 A、C、D、E 四 个 变量 的 域 都 是 {1，2}， 且 变量 B 的 域 为 {1，2，3}。 软 约束 
MF: 


Cy: C4: C3: 





w N Ke wo vw KID 


A 
1 
1 
1 
2 
2 
2 


C1 的 作用 域 是 {A， B}, cz 的 作用 域 是 {B， C}, & 的 作用 域 是 {B， D}; 假设 Ca 的 作 
用 域 是 {C，E)}，cs 的 作用 域 是 {D，E}。 s 

EMAAR R — Be a E R E R EE — PK. EAP, HE (A=1) 
是 BN—TbHR, 4B=2N, AAEN 2. 

给 定 一 个 全 赋值 ， 全 赋值 的 评估 值 就 是 应 用 了 该 全 赋值 的 软 约 束 的 评估 值 加 和 。 一 
个 形式 化 的 方法 是 在 软 约束 上 定义 操作 符 。 软 约束 可 以 被 逐 点 添加 。 两 个 软 约 束 的 全 加 
是 将 这 两 个 约束 的 作用 域 范围 进行 并 操作 ， 受 加 的 后 的 评估 值 是 当前 赋值 玉 两 个 函数 值 
的 和 。 
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【 例 4-30) 考虑 前 例 中 的 ct 和 cs ARM. ate 是 范围 为 {(A，B，C} 的 函数 : 


Cy 二 cs: 


A B 
1 1 
1 1 
1 2 





第 二 个 值 的 计算 如 下 : 
(a te. (A=1,B=1,C=2) 
=c,(A=1,B=1) +e,(B=1,C=2) 
=5+2 
=7 < 

与 生成 -测试 算法 一 致 ， 寻 找 最 优 赋值 的 一 种 方法 是 计算 软 约束 的 加 和 ， 选 择 一 个 具 
有 昌 小 值 的 赋值 方案 。 稍 后 将 介绍 其 他 更 有 效 的 最 优化 算法 。 

当 一 个 硬 约束 不 被 满足 时 ， 硬 约束 可 以 被 模型 化 为 产生 一 个 无 穷 大 的 成 本 。 只 要 一 个 
赋值 的 成 本 是 有 限 的 ， 那 么 该 赋值 就 没有 违反 硬 约束 条 件 。 如 果 硬 约束 不 被 满足 时 不 用 无 
穷 大 的 成 本 ， 那 么 另 一 个 策略 是 将 成 本 设置 为 一 个 很 大 的 数 ， 数 要 比 软 约束 的 加 和 还 大 。 
那么 最 优化 就 可 以 看 成 是 一 个 寻找 解 的 过 程 ， 这 个 解 违反 了 最 少 的 硬 约 束 ， 并 且 有 一 个 最 
小 的 成 本 。 

最 优化 问题 要 难于 约束 满足 问题 。 很 难 知 道 一 个 赋值 方案 是 不 是 最 优 的 。 在 CSP 问 
题 中 ， 算 法 可 以 判断 一 个 赋值 方案 是 不 是 一 个 满足 约束 的 解 。 而 在 最 优化 问题 中 只 能 通过 
和 其 他 赋值 方案 比较 来 判断 当前 赋值 方案 是 不 是 最 优 的 。 

许多 解决 硬 约束 的 方法 都 可 以 被 扩展 来 解决 最 优化 问题 ， 接 下 来 的 小 节 会 进行 
叙述 。 


4. 10.1 最 优化 的 系统 方法 


弧 一 致 方法 可 以 通过 修剪 劣势 赋值 方案 从 而 被 泛 化 解决 最 优化 问题 。 假 设 c tts cr 
是 含 变 量 X 的 软 约 束 。 设 软 约束 c= 二 ci 十 … 十 cs。 设 Y 是 包含 在 约束 c 中 不 同 于 X HEE. 
X 有 一 个 变量 值 w， 如 果 对 于 Y 的 所 有 变量 值 y，X 的 一 些 值 有 (X=v, Y=y)<(X= 
v, Y=y), ， 对 于 变量 X 就 说 v 是 严格 被 支配 的 (strictly dominated) 。 修 前 严格 被 支配 的 值 
不 会 导致 最 优 解 被 删除 。 可 通过 GAC 算法 的 重复 执行 对 域 进行 修剪 。 

被 弱 支 配 (weakly dominated) 与 严格 被 支配 的 定义 基本 相同 ,不 同 之 处 在 于 将 “小 
于 ”替换 为 “小 于 等 于 ”。 如 果 仅 需要 一 个 解 ， 那 么 被 弱 支 配 的 值 可 以 被 相继 删除 。 被 弱 
支配 的 值 的 圳 除 可 能 会 影响 到 寻找 最 优 解 的 过 程 ， 但 是 不 会 删除 最 优 解 。 从 弧 一 致 的 角 
度 来 看 硬 约 束 ， 修 前 被 支配 的 值 (严格 的 或 弱 的 ) 可 以 大 大 简化 问题 , 但 是 它 本 身 并 不 能 
解决 问题 。 

域 分 割 法 可 以 用 来 构建 搜索 树 。 域 分 割 选择 一 些 变 量 X， 并 且 考 虑 变量 X 的 每 个 值 。 
RA X 一 个 值 使 得 包含 X 的 约束 被 简化 ， 且 其 他 变量 的 值 可 以 被 修剪 。 实 际 上 ， 修剪 被 
弱 支配 的 值 意味 着 当 仅 有 一 个 变量 时 ， 变 量 的 最 佳 值 可 以 被 计算 出 来 。 重 复 域 分 割 过 程 建 
立 一 个 搜索 树 ， 如 图 4-1 所 示 ， 但 是 叶子 是 评估 值 。 像 A" 和 分 支 定 界 这 样 的 搜索 算法 通 
过 分 配 确定 的 成 本 就 可 以 找到 一 个 最 优 值 。 


RAR Hepek 97 


域 分 割 可 以 通过 两 种 技术 进行 改进 。 第 一 种 ， 在 变量 X HA. AFAA 
值 不 取决 于 X 的 变量 ,那么 在 有 X 变量 值 的 子 树 中 可 以 共享 另 一 变量 的 计算 ,这 个 值 仅 
需 计算 一 次 ， 可 以 缓存 起 来 。 第 二 种 ， 如 果 对 一 个 变量 集 的 删除 使 得 图 形 被 拆 分 ， 那么 被 
拆 分 的 部 分 在 变量 赋值 时 可 以 单独 被 解决 。 

变量 消除 (Variable elimination) 是 域 分 割 法 的 一 种 动态 规划 变形 。 变 量 在 某 一 时 刻 
被 删除 ， 一 个 变量 X 被 删除 的 过 程 如 下 : 设 尺 是 包含 变量 X 的 约束 集合 。 工 是 一 个 新 
约束 ， 该 约束 的 作用 域 是 R 中 约束 作用 域 的 并 ， 值 是 R PAA. B V=scope(T) \ 
{X}。 对 V 中 每 个 变量 的 值 ， 选 择 X 中 的 一 个 值 来 最 小 化 TT， 产生 一 个 新 的 约束 N，N 
的 作用 域 为 V。 约 束 NN 代 兰 了 RR 中 的 约束 。 这 就 产生 了 一 个 具有 更 少 变量 和 新 约束 集 
的 新 间 题 ， 该 问题 可 以 被 递归 地 解决 。 约 简 问 题 的 一 个 解 S 是 V 中 变量 的 一 个 赋值 方 
案 。 因 此 ，T(S) 是 X 的 一 个 函数 (赋值 S 下 的 约束 TD. X 的 最 优 值 则 是 使 TOS) ABA 
值 的 值 。 

图 4-11 给 出 VE 算法 的 伪 代 码 。 消 除 顺序 可 以 被 先 验 地 或 者 即时 地 计算 ， 例 如 ， 使 用 
在 CSP VE 中 的 启发 式 消 除 顺序 。 这 个 实施 过 程 可 以 不 用 存储 工 ， 仅 通过 对 NN 构建 一 种 扩 
展 的 表述 。 





1; procedure VE_SC(V;, Fs) 
2 Inputs 

3 Vs: 变量 集合 
4: Fs: 约束 集合 
5 

6 

7 
















: Output 
: 对 于 Vs 的 最 佳 赋值 
if Vs 包含 一 个 单独 元 素 或 者 FEs 包含 一 个 单独 的 约束 then 
8: $ FHF. 中 约束 的 加 和 
9: return F 中 最 小 值 的 赋值 方案 









10: else 

11: 根据 一 些 消除 顺序 选择 X，XEVs 

12; R=({FEFs: 涉及 XX 的 下 } 

13; &TAR 中 约束 的 加 和 

14; N :=minxT 

15: S :一 VE _ SC(Vs \ {X}, Fs\ RU{N}) 
16: Xa arg minyT (S) 






return SU {X= Xa} 





图 4-11 具有 软 约 束 的 最 优化 变量 消除 


【 例 4-31) 考虑 例 4-29。 首 先 考虑 消除 变量 A。A 仅 出 现在 约束 ci(A，B) 。 
消除 A Aw c,(B)=arg minge, (A, B): 


约束 cl(A, B) 被 cs (BD SR, 
假设 B 接 下 来 将 被 消除 。B 出 现在 三 个 约束 中 c2(B，C)、cs(B，D) 和 cs6(B)。 这 三 
个 约束 相 加 cz(B，0Q) 十 c;(B，D) 十 cs(B): 
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Coy Cy 和 cs 这 三 个 约束 被 替换 为 cj(C，D) 一 mins(e(B，C 十 c(B，D) 十 cs(CB)): 





现在 仍然 有 三 个 约束 : aC, E), (D, E), 7 CC，D)， 这 些 被 递归 优化 。 假 设 返 
回 一 个 解 C=1、D=2、FE 王 2。 那 么 使 得 c;(B，C=1) 十 ci;(B，D 二 2) 十 cs (B) 最 小 的 值 为 
B=2, 

Ko tA, BPR (A, BHD) A A=1. Auk. REKE: A=1, 
B=2, C=1, D=2, E=2, 4 

算法 VE 因为 是 用 硬 约束 执行 的 ， 所 以 复杂 度 取决 于 约束 图 的 结构 。 在 算法 VE 中 ， 
也 包括 算法 VE_SC， 稀 朴 图 可 能 会 产生 一 个 很 小 的 中 间 约 束 。 连 接 紧 密 的 图 会 产生 繁多 
的 中 间 约 束 。 


4.10.2 局 部 搜索 最 优化 


局 部 搜索 方法 可 以 直接 应 用 到 最 优化 问题 中 ， 用 最 优化 问题 中 的 目标 函数 作为 局 部 搜 
索 的 评估 函数 。 算 法 在 确定 的 时 间 内 执行 (为 利用 搜索 空间 的 其 余部 分 ， 也 可 能 使 用 随机 
重启 的 方法 )， 在 这 个 时 间 内 算法 一 直 寻 找 最 佳 赋值 ， 并 且 返 回 这 个 赋值 作为 答案 。 

最 优化 的 局 部 搜索 有 一 个 额外 的 复杂 情况 ， 它 的 结果 不 能 仅仅 来 源 于 硬 约 束 ， 因 为 很 
难 判断 一 个 全 赋值 是 不 是 最 佳 可 能 解 。 根 据 最 优化 标准 ， 一 个 局 部 最 小 值 (local mini- 
mum) 至 少 和 它 的 邻居 一 样 小 。 一 个 全 局 最 小 值 (global minimum) 是 至 少 和 所 有 其 他 全 赋 
值 一 样 小 。 如 果 对 其 他 的 赋值 没有 系统 的 搜索 ， 算 法 可 能 不 知道 目前 找到 的 最 佳 赋值 是 不 
是 全 局 最 优 ， 也 不 知道 在 搜索 空间 的 另 一 部 分 是 不 是 存在 一 个 更 好 的 解 。 

当 同 时 具有 软 、 硬 约束 时 ， 解决 约束 优化 问题 将 成 为 在 违反 硬 约束 和 使 评估 函数 更 差 
之 间 的 一 个 权衡 。 当 违反 硬 约束 时 ， 不 会 把 成 本 看 作 是 无 限 的 ， 因 为 那样 的 话 算法 将 区 分 
不 出 是 违反 了 一 个 硬 约 束 还 是 违反 了 多 个 硬 约 束 。 在 搜索 的 过 程 中 ， 有 时 允许 临时 违反 硬 
约束 也 不 失 为 一 种 好 的 办 法 。 

连续 域 

对 于 域 为 连续 值 的 最 优化 问题 ， 局 部 搜索 将 变 得 更 为 复杂 。 这 主要 是 因为 一 个 赋值 方 
案 的 邻居 节点 会 很 不 清晰 。 结 果 同 样 不 能 仅仅 依赖 于 硬 约束 ， 因 为 这 些 硬 约束 往往 将 空间 
离散 化 。 
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对 于 最 优化 问题 ， 梯 度 下 降 (gradient descent) 法 被 用 来 寻找 最 小 值 ， 梯 度 上 升 (gradi- 
ent ascent) 法 被 用 来 寻找 最 大 值 。 梯 度 下 降 法 像 一 个 游 走 在 下 坡 的 过 程 ， 并 且 总 是 朝 着 尽 
量 向 下 的 方向 移动 。 寻 找 一 个 赋值 方案 的 邻居 的 通用 方法 是 按照 评估 函数 的 斜率 成 比例 
地 向 下 坡 移动 。 因 此 ， 梯 度 下 降 法 在 每 个 方向 上 成 比例 地 移动 ， 这 个 比例 是 该 方向 偏 导 数 
的 负数 。 
一 个 方向 上 ， 如 果 X 是 一 个 实 值 变量 ， 当 前 值 为 w， 那 么 下 一 次 的 值 应 该 是 
v=x ($) 
。 7 是 步 长 (step size) ， 是 一 个 比例 常数 ， 这 个 步 长 决定 了 梯度 下 降 法 以 多 快 的 速 
度 达 到 最 小 值 。 如 果 - 太 大 ， 则 容易 迈 过 最 小 值 : MR y KA, WR HE 
常 耗 时 。 


fh RFX 的 导数 ， 是 关于 X 的 一 个 函数 ， 被 X 一 "度量 。 


【 例 4-32] 图 4-12 给 出 了 用 单 维 函 数 找到 局 部 最 小 值 的 一 维 实例 。 开 始 于 位 置 1。 导 
数 是 一 个 较 大 的 正 值 ， 所 以 移动 到 位 置 2。 这 时 导数 变 为 近似 为 零 的 负 值 ， 选 择 较 小 的 移 
动 到 位 置 3。 到 位 置 3 导数 为 接近 零 的 负 值 ， 所 以 向 右 更 小 的 移动 。 也 就 是 说 ， 当 寻找 到 
局 部 最 小 值 时 ， 和 斜率 接近 零 ， 采 用 更 小 的 移动 。 < 
对 于 多 维 的 最 优化 问题 ， 当 有 多 个 变量 时 ， 梯 度 
下 降 法 将 为 在 每 一 维 偏 导数 的 基础 上 做 该 维 的 成 比例 
运动 。 WRX., S X,) 是 必须 被 赋值 的 变量 ， 二 在 
赋值 方案 对 应 了 一 个 值 为 (mw ，…，vw,) 的 元 组 。 假设 评 
估 函 数 疡 是 可 微 的 ， 赋 值 (w ，…，w,) 的 下 一 个 邻居 需 
要 对 每 一 方向 都 成 比例 地 移动 来 获取 ， 这 个 比例 是 该 
方向 上 4 的 斜率 。 新 的 X; 的 值 是 





vu, — qX (2 ) ey stay) 3 3 4 1 
图 4-12 下 
EPK. AFE CE X, = X, 的 函数 。 oer 
将 它 应 用 到 点 (wm ， wey Un iia 
(& Tore et, lim AC, setst; Es ,UV, -一 Ui s**t s Up) 


mE h AS OS FT DA BR TT ， 那么 就 将 它 解 析 。 如 果 不 能 解析 计算 ， 那 么 就 用 一 
很 小 的 值 s。 

梯度 下 降 法 经 常 被 用 到 参数 学 习 ， 在 参数 学 习 中 有 可 能 存在 成 千 上 万 的 实 值 参数 需要 
被 优化 。 该 方法 的 许多 变形 这 里 就 不 进行 介绍 了 。 例 如 ， 不 用 常数 的 步 长 ， 算 法 用 一 个 二 
元 搜索 来 决定 局 部 最 优 的 步 长 。 


4. 11 本 章 小 结 


。 在 Agent 解决 实际 问题 的 过 程 中 ， 应 用 描述 状态 的 特征 集 进行 推理 的 方法 要 比 根据 状态 显 式 推理 
的 方法 更 为 有 效 。 

。 许多 问题 可 以 用 一 个 变量 集合 表示 ， 并 且 存 在 与 该 集合 对 应 的 特征 集 、 变 量 可 能 取 值 所 组 成 的 
域 ， 以 及 硬 和 /或 软 约束 集合 。 问 题 的 解 是 为 每 个 变量 赋值 的 一 种 赋值 方案 ,该 赋值 方案 被 要 求 
满足 硬 约束 集合 或 者 最 优化 一 些 函 数 。 
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* 弧 一 致 方法 和 搜索 方法 经 常 被 结合 使 用 ， 用 来 寻找 满足 约束 条 件 的 赋值 方案 ， 或 者 表示 问题 无 解 。 

。 随机 局 部 搜索 用 于 寻找 满足 约束 条 件 的 赋值 方案 ， 但 是 不 能 确定 问题 是 否 无 解 。 算 法 在 每 次 改进 
所 消耗 的 时 间 和 每 次 移动 所 改进 的 值 之 间 做 出 权衡 来 保证 算法 的 有 效 性 。 这 其 中 还 必须 要 使 用 一 
些 策略 来 保证 算法 能 够 跳出 非 解 的 局 部 最 优 值 。 

" 当 约 束 图 是 稀 朴 图 时 ， 可 以 采用 系统 化 的 方法 进行 最 优化 -。 这 种 情况 也 可 以 使 用 局 部 搜索 的 方 
法 ， 但 是 该 方法 所 带 来 的 问题 是 无 法 确认 当前 的 搜索 是 否 正 处 于 全 局 最 优 。 


4.12 参考 文献 及 进一步 阅读 


1977 年 ， 由 Mackworth 提出 了 广义 弧 一 致 (GAC) 算 法 。2003 年 Dechter 讨论 了 约 来 满足 技术 ，2006 
年 Freuder 和 Mackworth 做 了 类 似 工 作 ， 

早 在 1962 年 ，Davis、Logemann 和 Loveland 三 人 就 联合 提出 了 DPLL 算法 . 

针对 命题 满足 问题 的 变量 消除 (VE) 方 法 是 由 Davis 和 Putnam 在 1960 年 提出 的 。 而 最 优化 理论 变量 
消除 (VE) 可 以 称 为 非 序列 动态 规划 (non-serial dynamic programming), ' 该 方法 是 由 Bertelé 和 Brioschi 在 
1972 年 共同 提出 。 

随机 局 部 搜索 方法 在 2003 年 和 2004 年 分 别 由 Spall 和 Hoos, Stitzle 给 出 相应 的 描述 。，Minton、 
Johnston, Philips 和 Laird 在 1992 年 提出 了 最 小 冲突 启发 式 方法 ， 基 于 该 方法 衍生 出 了 任意 冲突 启发 式 
方法 。 经 典 的 模拟 退火 算法 是 由 Kirkpatrick, Gelatt 和 Vecchi 在 1983 年 提出 的 。 

遗传 算法 是 由 Holland 在 1975 年 率先 提出 。 有 关 遗 传 算法 的 文献 有 许多 ， 相 关 文 献 可 以 查询 Gold- 
berg[1989] ，Koza[1992]，Mitchell[1996]，Bick[1996]，WhitleyL2001] 和 Goldberg[2002] 的 相应 工作 。 


4.13 习题 


4.1 在 图 4-13 的 填 字 游戏 中 ， 必 须 找 出 6 个 包含 3 个 字母 的 单词 : 3 个 横向 阅读 的 单词 (Al1、A2、A3)， 
3 个 纵向 阅读 的 单词 (CD1、D2、D3)。 必 须 从 右 侧 显 示 的 40 个 单词 列表 中 选择 每 个 单词 。 首 先 ， 尝 
试用 直觉 来 填写 ; 然后 用 先 域 一 致 后 弧 一 致 的 方法 来 解决 。 

至 少 存在 两 种 方式 将 图 4-13 中 的 填 字 游 戏 表 达 


器 单词 表 : 
为 约束 满足 问题 。 
第 一 种 表达 方式 是 将 词 的 位 置 (Al，A2，A3， ail,aim,air,and,any, 
D1，D2，D3) 作 为 变量 ， 词 的 集合 作为 变量 的 可 能 ee 
取 值 。 约 东 条 件 则 为 单词 交叉 位 置 的 字母 必须 er 
相同 。 eg 
一 eel,eft, far, fat, fit, 
第 二 种 表达 方式 是 将 九 个 方 格 作为 变量 。 字 和 母 los oaf rolar die 





表 的 字母 集合 {a，5，…，z} 则 为 变量 的 域 。 约 束 
则 为 相应 位 置 上 的 字母 必须 构成 单词 表 里 面 的 单 图 4-13 由 6 个 单词 完成 的 填 字 游戏 
词 。 例 如， 左上 方 的 方 格 和 中 间 最 上 方 的 方 格 不 能 
同时 取 a 值 ， 因 为 右 侧 单词 表 内 没有 aa 开头 的 单词 。 
(a) 根据 第 一 种 表达 ， 请 给 出 使 用 域 一 致 方法 进行 约 简 的 例子 ( 若 存 在 ) 。 
(b) 根据 第 一 种 表达 ， 请 给 出 使 用 弧 一 致 方法 进行 约 简 的 例子 (车 存在 )。 
(c) 根据 第 一 种 表达 ， 使 用 域 一 致 加 弧 一 致 的 方法 是 否 足 以 解决 这 个 问题 ， 请 给 出 相应 解释 。 
(d) 根据 第 二 种 表达 ， 请 给 出 使 用 域 一 致 方法 进行 约 简 的 例子 (车 存在 )。 
(e) 根据 第 二 种 表达 ， 请 给 出 使 用 缴 一 致 方法 进行 约 简 的 例子 (车 存在 )。 
O 根据 第 二 种 表达 ， 使 用 域 一 致 加 弧 一 致 的 方法 是 否 足以 解决 这 个 问题 ， 请 给 出 相应 解释 。 
(g) 基于 一 致 性 技术 ， 哪 种 表达 可 以 使 问题 更 有 效 地 被 解决 ? 在 答案 中 给 出 证 明 。 
4.2 假设 存在 一 个 关系 uN, W), KARER W 中 的 第 NN 个 字母 是 元 音 (a，e， i, o, u 中 的 一 个 ) 
MAR. PIM, v2. ca) WA, AW cat 中 的 第 二 个 字母 “a” 为 元 音 。v(3，cat) 为 假 ， 因 为 cat 中 


4.3 


4.4 


4.5 


4.6 
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ASSP FRE RAI. v5, cat AE, AW cat 中 不 存在 第 五 个 字母 ， 

假设 N 的 域 是 (1，3，5)}，W 的 域 是 {added， blue, fever, green, stare}, 

(a) ON, wv) 是 否 为 弧 一 致 ? 若是 ， 请 给 出 原因 。 若 不 是 ， 请 指出 从 
域 中 删除 哪些 元 素 可 以 使 其 形成 弧 一 致 。 l 

(b) MW, we GAM—B? 若是 ， 请 给 出 原因 。 若 不 是 ， 请 指出 从 
域 中 删除 哪些 元 素 可 以 使 其 形成 弧 一 致 。 

在 图 4-14 的 填 字 游戏 中 ， 可 以 被 使 用 的 单词 有 : 

at, eta, be, hat, he, her, it, him, on, one, desk, dances usage, 

easy, dove, first, else, loses, fuels, help, baste, given, kind, 

sense, soon, sound, this, think, 

(a) 给 出 用 节点 位 置 (1- 横 向 ，2- 纵 向 等 ) 和 单词 域 的 表达 ， 并 具体 说 明 
在 域 一 致 和 弧 一 致 操作 后 的 网 络 。 

Cb) 考虑 对 倘 表 达 方 式 ， 单 词 的 交叉 位 置 为 变量 ， 这 些 变量 的 域 是 能 放置 
在 交叉 位 置 的 字母 。 给 出 在 弧 一 致 方法 构造 网 络 后 的 变量 域 。 在 这 种 
表达 方式 下 ,使 用 缴 一 致 方法 后 得 到 的 结果 是 否 对 应 了 (Ca) 中 的 网 络 。 ”图 414 由 7 个 单词 完成 

Cc) 基于 (a) 中 弧 一 致 操作 后 得 到 的 网 络 ， 给 出 使 用 变量 消除 法 解决 该 BATEN 
填 字 游 戏 的 过 程 。 

Cd) 不 同 的 消除 顺序 是 否 影响 效率 7 请 给 出 相应 和 解释. 

使 用 局 部 随机 搜索 解决 习题 4.3 中 的 问题 。 基 于 弧 一 致 网 络 ， 可 以 使 用 “随机 局 部 搜索 ”Alspace. 

org 中 的 小 程序 来 解决 问题 。 

(a) 随机 游 走 的 方法 效果 如 何 ? 

b) 息 山 算法 的 效果 如 何 ? 

(c) 组 合 的 方法 效果 如 何 ? 

(d) 给 出 参数 集合 的 设置 使 得 效果 最 佳 。 

一 个 调度 问题 中 包含 5 个 活动 ， 这 5 个 活动 需要 被 安排 在 4 个 时 间 段 上 -。 BRA, B, C, D, EX 

表示 活动 的 变量 ， 变 量 的 域 为 (1，2，3，4}， 且 约束 为 A>D, D>E, C#A, C>E, C#D, B> 

A, BACMC#D+1, 

( 先 用 直觉 尝试 着 给 出 一 种 合理 的 调度 安排 .) 

(a) 给 出 用 回溯 法 解决 该 问题 的 过 程 。 画 出 生成 的 搜索 树 并 找到 所 有 解 。 给 出 清晰 的 调度 方案 ， 并 
且 确 保 选 择 了 一 个 合理 的 变量 顺序 。 

为 了 给 出 搜索 树 ， 将 它 以 文本 的 形式 写 出 ， 该 搜索 树 的 每 一 个 分 支 占 一 行 。 例 如 ， 假 设 变 量 

X, Y, Zit. fe HAR XFY，Y 天 Z。 对 应 的 搜索 树 可 以 以 如 下 方式 写 出 : 


X=t Y=t failure 
Y=f Z=t solution 
Z=f failure 
X=f Y=t Z=t failure 
Z=f solution 

Y=f failure 


GER: 对 于 一 个 具体 问题 来 说 ， 写 一 个 程序 来 生成 搜索 树 比 手动 可 能 要 更 容易 些 .) 
(b) 给 出 用 弧 一 致 法 解决 该 问题 的 过 程 。 必 须 完成 以 下 操作 : 
。 GAARA: 
。 给 出 每 步 删 除 域 中 元 素 的 过 程 ， 以 及 在 删除 元 素 的 过 程 中 涉及 了 哪些 弧 ; 
。 在 弧 一 致 结束 后 给 出 精确 的 约束 图 ; 
。 给 出 使 用 分 割 域 方 法 解决 该 问题 的 过 程 。 
考虑 哪些 方法 可 以 做 到 以 下 的 要 求 : 
(a) 如 果 不 存 在 模型 ， 能 判断 出 没有 模型 。 
(b) 如 果 存 在 一 个 模型 ， 能 找到 这 个 模型 。 
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4.7 
4.8 


4.9 
4.10 


4.11 


4.12 


Co) 确保 找到 所 有 模型 。 
方法 如 下 : 
D 使 用 域 分 割 的 弧 一 致 。 
ii) 变量 消除 。 
iii) 随机 局 部 搜索 。 
iv) 遗传 算法 。 
基于 域 分 割 的 弧 一 致 方法 能 返回 不 仅仅 是 一 个 而 是 所 有 模型 ， 解 释 工 作 流 程 ， 并 给 出 算法 。 
变量 消除 法 能 返回 一 个 而 不 是 所 有 模型 ， 解 释 工 作 流程 ， 如 何 比 找到 全 部 模型 更 容易 地 找到 一 个 模 
型 ， 并 给 出 算法 。 
解释 基于 域 分 割 的 弧 一 致 方法 是 如 何 计算 模型 的 数量 的 。 
解释 基于 变量 消除 的 弧 一 致 方法 是 如 何不 使 用 枚 举 方法 而 计算 模型 数量 的 。( 提 示 : 不 需要 逆向 
推理 ， 但 是 可 以 向 前 推导 解 的 数量 .。) 
思考 图 4-15 中 二 元 约束 的 约束 图 (例如 , n 是 A 和 B 的 关系 ， 可 以 
写 r,(A，B))， 用 变量 消除 法 解决 这 个 网 络 ， 
(a) 假设 要 消除 变量 A， 哪 些 约束 被 删除 ? 在 哪些 变量 上 又 被 创建 
了 一 个 新 约束 (可 以 称 之 为 ra)? 
(b) 假设 随后 要 消除 变量 B( 例 如 ， 在 消除 A 之 后 )， 哪 些 关 系 将 被 
移 除 ?在 哪些 变量 上 又 被 创建 了 一 个 新 约束 ? 
将 密码 算术 问题 SEND+ MORE= MONEY 作为 约束 满足 问题 提出 
并 解决 。 在 密码 算术 问题 中 ， 每 个 字母 都 用 一 个 不 相同 的 数字 表示 ， 
最 左边 的 数字 不 能 为 0( 因 为 这 将 是 不 存在 的 )， 且 对 应 的 字母 序列 是 
一 个 十 进 制 的 数 ， 其 和 必须 是 正确 的 。 在 本 例 中 , Y=(D+E) mod 
10, HE=(N+R+((D+ E)+10)) mod 10, 等 等 。 





图 4-15 抽象 的 约束 网 络 


| 第 5 章 


Artificial Intelligence; Foundations of Computational Agents 


命题 和 推理 





当 我 遇 到 一 个 错误 的 定理 时 ， 我 不 需要 对 其 进行 考察 或 论证 ， 因 为 我 可 以 通过 一 个 简 
单 的 实验 来 发 现 其 事实 中 的 错误 ， 即 通过 对 实例 的 计算 ， 就 可 以 轻而易举 地 发 现 其 中 的 
错误 。 

如 果 有 人 怀疑 我 的 结论 ， 我 就 会 对 他 说 “让 我 们 来 计算 一 下 ”， 然 后 付 诸 于 笔 端 ， 我 们 
很 快 就 会 解决 问题 。 

一 一 Gottfried Wilhelm Leibniz[1677]] 


本 章 着 重 介 绍 简单 形 式 知 识 库 的 相关 理论 ， 这 种 知识 库 阐 述 某 个 环境 中 的 事实 。 
Agent 可 以 观察 并 使 用 该 知识 库 的 内 容 ， 从 而 确定 该 环境 中 的 其 他 事实 。 在 一 个 给 定 的 知 
识 库 中 ， 当 Agent 询问 何 为 真 时 ， 知 识 库 不 必 枚 举 可 能 世界 就 可 以 回答 ， 甚 至 可 以 产生 所 
有 的 可 能 世界 。 本 章 介 绍 了 使 用 命题 进行 的 形式 化 推理 。 各 种 形式 化 推理 的 不 同 之 处 在 于 
证 明了 什么 ， 什 么 样 的 背景 知识 必须 被 提供 ， 以 及 Agent 在 线 上 获取 的 观察 是 怎样 被 操 
作 的 。 


5.1 命题 


约束 作为 变量 合理 赋值 的 表 ， 具 体 编写 时 并 不 是 非常 直观 ， 很 难看 出 这 些 表 中 所 示 的 
内 容 。 而 且 对 知识 库 进 行 调试 也 是 一 件 很 困难 的 事情 ,一 点 小 的 变化 都 会 引起 表 中 内 容 很 
大 的 改变 。 通 常 编写 约束 的 方法 是 以 命题 的 形式 进行 的 。 

对 于 使 用 命题 表示 约束 和 查询 有 如 下 原因 : 

。 对 于 变量 间 关 系 的 表示 使 用 逻辑 声明 比 使 用 具体 的 表达 要 更 简洁 、 易 该 。 

。 通过 这 种 方式 查询 Agent 得 到 的 回答 要 比 对 单个 变量 赋值 得 到 的 更 为 丰富 。 

。 该 语言 将 在 第 12 章 中 被 扩展 以 对 个 体 和 关系 进行 推理 。 

首先 给 出 称 为 命题 演算 (propositional calculus) 语 言 的 语法 和 语义 。 


5.1.1 命题 演算 的 语法 


命题 (proposition) 是 判断 真 假 的 语句 ， 在 某 一 个 世界 中 其 有 一 定 的 真 值 (如 真 或 者 
假 )。 命 题 是 通过 原子 命题 的 逻辑 连接 建立 起 来 的 。 

原子 命题 (atomic proposition) ， 或 称 为 原子 (atom) ， 是 使 用 一 个 小 写字 母 开 始 的 符号 
表示 。 直 观 地 说 ， 原 子 是 有 真 假 值 的 事物 。 

例如 ， 人 工 智能 是 有 趣 的 (ai_is_fun)、 点 亮 h Uith), fE ESP TAT Clive_outside) A fA 
光 (sunny)， 都 可 以 称 作 原子 命题 。 

从 前 面 提 到 的 代数 变量 的 角度 看 ， 原 子 可 以 看 做 是 有 一 个 特定 值 或 者 一 组 值 的 声明 。 
例如 ， 命 题 classtimeA fter3 可 以 意味 着 ClassTizze 之 3， 即 当 变 量 ClassTime 值 大 于 3 时 ， 
该 命题 为 真 ， 否 则 为 假 。 传 统 的 命题 演算 不 会 将 变量 显 式 地 描述 ， 本 书 也 遵循 这 一 传统 。 
我 们 知道 ， 对 于 布尔 变量 (Boolean variable) 存 在 着 一 个 直接 的 事实 ， 即 命题 不 为 真 即 为 


[157] 
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B. RË X=true 写成 命题 x， 这 里 使 用 了 小 写 的 变量 名 。 因 此 ， 命 题 happy 就 意味 着 存 
在 一 个 名 为 Happy 的 布尔 变量 ， 其 中 happy 意味 着 Happy=true, 
命题 也 可 以 通过 逻辑 连接 词 连接 简单 命题 组 成 。 因 此 命题 是 下 述 两 者 之 一 : 
。 一 个 原子 命题 。 
。 一 个 复合 命题 (compound proposition), WF MILAIER: 
7 pGEVEAE p) 是 p HB (negation) 
pAg( 读 作 p 和 9g) 一 一 是 志和 4g WAM conjunction) 
PVq( 读 作 p 或 9) 一 一 是 p Hg 的 析 取 (disjunction) 
pq( 读 作 p 缠 含 g) 一 一 是 从 p 蕴含 (implication) q 
p~qGE EMR g 那么 p) 是 从 g BE p 
poq ( 读 作 “p 当 且 仅 当 gq "或 “p EMF”) 
其 中 p 和 9g 都 是 命题 。 
复合 命题 操作 符 的 优先 级 按照 上 述 顺序 排列 。 因 此 ， 我 们 可 以 按 上 面 的 顺序 ， 使 用 对 
复合 命题 加 上 括号 的 方法 消除 复合 命题 的 歧义 ,例如 : 
TaVbAc>dA 7eV f 
是 下 面 命题 的 缩写 
(Cra) VObAD)CdACTADVA 








5.1.2 ”命题 演算 的 语义 


语义 (semantic) 是 指 语言 符号 与 现实 世界 事物 的 对 应 。 可 以 用 语义 理解 语言 中 句子 的 
含义 。 命 题 演 算 的 语义 定义 如 下 : 

解释 (interpretation) 由 映射 函数 x 组 成 ， 映射 函 数 x 是 将 原子 命题 映射 到 {true， 
false} HRM. MWR rla) 二 true， 则 我 们 说 在 该 解释 中 原子 命题 a WA, 或 说 该 解释 将 
true Fa., WF x(a) 二 false， 我 们 称 在 该 解释 中 a 为 假 。 有 了 时 可 以 认为 x 是 一 组 映射 为 
真 的 原子 ， 而 其 他 的 原子 则 映射 为 假 。 

解释 将 每 个 命题 映射 为 一 个 真 值 (truth value)。 在 解释 中 每 个 命题 可 能 是 真 命题 也 可 
能 是 假 命题 。 如 果 x(a) 二 true， 则 原子 命题 a 在 该 解释 中 为 真 ， 否 则 在 该 解释 中 为 假 。 复 
合 命题 的 真 值 可 以 使 用 真 值 (图 5-1) 进 行 判 断 。 











图 5-1 定义 ”、A、V、< 熏 、 一 和 全 的 真 值 表 


注意 ， 我 们 只 谈论 在 某 种 解释 中 的 真 值 。 同 一 命题 在 不 同 的 解释 中 可 能 会 有 不 同 的 “ 
真 值 。 

【 例 5-1〗 假设 有 三 个 原子 命题 : ATE HER ABW Cai_is_fun), RA Chappy), A 
#E XT ight_on). 

(RE I, P: ai_is_fun HH, happy AB. light_on HE. HREH., L 映射 的 
PRA m (ai_is_fun)=true, m,(happy)= false, x,(light_on)=true, BBA 
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。 Æl #ai_is_fun HH. 

。 Æ 1, Po ai_is_fun Ak. 

。 Æ 1, happy 为 假 。 

。 Æ h P happy AK. 

*。 ÆI #1 ai_is_funV happy AB. 

* Æ P ai_is_fun<happy AK. 159 

"在 Ħ happy~ai_is_fun 为 假 。 

*。， Æ 1, # ai_is_fun~happy | light_on AH. 

假设 解释 I 中 ai_is_fun HBs happy AH, light_on 为 假 。 

。 Æl A ai_is_fun 为 假 。 

。 在 I 中 一 ai_is_fun AB. 

。 在 I 中 happy 为 真 。 

。 在 I 中 一 happy AB. 

。 在 I 中 ai_is_funVhappy AH. 

。 在 I 中 ai_is_fun<-happy 为 假 。 

。 Æl, 1 ai_is_fun<light_on HË. 

。 Æl,  ai_is_fun<happy Alight_on HH. < 

ARE (knowledge base) ÈS Agent 为 真 的 一 组 命题 的 集合 ， 知 识 库 的 元 素 是 公理 
(axiom), 

一 组 命题 的 模型 (model) 是 该 组 命题 都 为 真 的 一 个 解释 。 . 

如 果 KB 是 一 个 知识 库 ，g 是 一 个 命题 ， 称 g 是 KB 的 一 个 逻辑 结论 (logical conse- 
quence), WR g 在 每 个 KB 的 模型 中 都 为 真 ， 记 作 

KBFg 

也 就 是 说 ， 不 存在 KB 为 真 、g 为 假 的 解释 。 若 在 一 个 解释 中 KB 为 假 ， 那 么 逻辑 结 
论 的 定义 将 不 会 限制 g 的 真 值 。 

如 果 KBFsg ， 我 们 也 说 g 从 天 B 逻辑 推出 (logically follow) ， 或 者 说 KB 制约 (entail)g。 

【 例 5-2】 假设 KB 是 下 述 知 识 库 ;: 

Sam 是 快乐 的 (sam_is_happy)。 

人 工 智 能 是 有 趣 的 (ai_is_fun)。 

虫子 生活 在 地 下 (tworms_live_underground)。 

夜晚 (night_time)。 

Ay 83, ER (bird_eats_apple). 

hn Fy 5 0 SE AB Z SE BEE (a pple_is_eaten<-bird_eats_apple). 

如 果 Sam Æ S AE OAL FE RAC BB ZT SEP Cswitch_1_is_up<-sam_is_in_room A night_time) 。 

给 定 以 上 的 知识 库 ， 则 : 

KBE bird _eats_apple 

KBFapple_is_eaten 

因为 存在 着 使 switch_1_is_ up 为 假 的 知识 库 模型 ， 所 以 KB 不 制约 switch _1_is_up 这 
样 的 命题 。 注 意 在 这 样 的 解释 中 sam_is_in_room 必定 为 假 。 < [160 

1. 人 类 角度 的 语义 观 

通过 之 前 对 语义 的 描述 ， 我 们 并 不 知道 语义 的 作用 ， 也 不 知道 如 何 用 语义 作为 基础 信 
息 来 构造 智能 系统 。 我 们 知道 的 是 ， 使 用 逻辑 背后 的 基本 思想 是 当知 识 库 的 设计 者 需要 实 
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例 化 一 个 特别 的 世界 时 ,设计 者 可 以 选择 这 个 世界 作为 一 种 预期 解释 (intended interpreta- 
tion)， 可 以 选择 关于 这 个 世界 的 符号 的 意义 ， 并且 可 以 写 出 世界 中 为 真 的 命题 。 当 系统 计 
算出 该 知识 库 的 迎 辑 结果 时 ， 设 计 人 员 可 以 根据 该 预期 解释 来 解释 答案 。 设 计 人 员 可 以 与 
其 他 设计 人 员 和 用 户 交 流 上 述 的 意义 ， 以 便于 他 们 地 能 根据 符号 的 含义 解释 答案 。 

逻辑 蕴含“KBFg "是 一 组 命题 (KB) 和 它 蕴含 的 命题 g 之 间 的 语义 关系 。KB 和 g 都 
是 符号 ， 而且 可 以 在 计算 机 中 表示 。 这 些 符 号 可 以 参照 真实 世界 的 命名 方式 进行 命名 ,但 
不 用 考虑 真实 世界 中 的 语义 。 FF 关系 是 不 用 计算 或 证 明 的 ， 它 只 是 提供 了 当 一 些 声明 为 真 
的 时 候 ， 接 下 来 会 跟随 些 什么 。 

知识 库 设计 者 表达 世界 时 用 到 的 方法 如 下 所 述 : 

第 一 步 : 知识 库 设 计 者 选择 任务 域 或 世界 进行 表示 ， 这 些 表示 应 该 是 具有 预期 解释 
的 。 这 可 以 是 现实 世界 某 个 方面 的 解释 (例如 一 所 大 学 的 课程 和 学 生 的 结构 ， 或 在 某 特定 
时 刻 的 实验 室 环境 ) ， 也 可 以 是 某 个 虚构 世界 的 解释 (如 爱丽 丝 梦 游 的 仙境 ， 或 一 个 开关 置 
下 后 的 电气 环境 )， 或 者 是 一 个 抽象 世界 的 解释 (例如 数 和 集合 的 世界 )。 设 计 者 还 必须 选 
择 其 关注 的 命题 。 

第 二 步 : 为 了 表达 该 世界 中 的 某 些 方面 ， 知 识 库 设 计 者 需要 选择 一 些 原 子 命题 。 每 个 
原子 命题 都 关于 该 预期 解释 具有 确切 的 意义 。 

第 三 步 : 知识 库 设 计 者 告诉 (tell) 系 统 哪 些 命题 在 该 预期 解释 中 为 真 。 这 经 常 被 称 为 
使 领域 公理 化 (axiomatizing)， 其 中 给 定 的 命题 是 领域 的 公理 (axiomy) 。 

第 四 步 : 知识 库 设 计 者 现在 可 以 询问 (ask) 有 关 预 期 解释 的 问题 ， 系 统 能 回答 这 些 问 
题 。 设 计 人 员 能 够 使 用 赋 子 符号 的 意义 来 解释 答案 。 

使 用 这 种 方法 ， 一 直到 第 三 步 时 设计 者 才 实际 上 告诉 计算 机 一 些 信息 。 前 两 步 是 在 设 
计 者 的 脑子 里 进行 的 。 

设计 人 员 应 记录 符号 的 含义 ， 以 便 让 其 他 人 理解 他 们 的 表示 ， 让 人 们 知道 每 个 符号 是 
什么 意思 ， 使 他 们 可 以 检查 给 定 命题 的 真实 性 。 符 号 含义 的 规范 被 称 为 本 体 (ontology) 。 
本 体 可 以 在 注释 中 非 正 式 地 说 明 ， 但 是 本 体 越 来 越 多 地 被 用 在 正式 语言 中 ， 以 便 能 使 语义 
具有 互 操作 性 一 一 互 操作 性 是 指 在 不 同 知识 库 中 统一 使 用 符号 的 能 力 ， 使 得 相同 的 符号 具 
有 同一 个 含义 。 这 部 分 内 容 将 在 本 书 第 13 章 详细 讨论 。 

第 四 步 可 以 由 其 他 人 来 做 ， 只 要 他 们 能 够 理解 本 体 就 可 以 。 其 他 人 只 需要 知道 问题 和 
答案 中 符号 的 意义 ， 并 且 相 信 知识 库 设计 者 已 经 交代 的 事实 为 真 ， 就 可 以 推 斯 他 们 的 问题 
的 答案 。 

2. 计算 机 角度 的 语义 观 

为 系统 提供 信息 的 知识 库 设计 者 享有 预期 解释 ， 并 且 根 据 预 期 解释 来 解释 符号 。 设 
计 者 对 知识 库 和 一 组 命题 进行 声明 ， 给 出 在 预期 解释 中 什么 是 真 命题 。 计 算 机 没有 途径 
使 用 该 预期 解释 ， 只 有 途径 使 用 知识 库 中 的 命题 。 我 们 会 看 到 ， 计 算 机 可 以 辨别 某 个 命 
题 是 不 是 知识 库 的 逻辑 结论 。 如 果 知 识 库 设计 者 已 经 根据 符号 的 意义 进行 了 真 值 赋值 ， 


那么 该 预期 解释 就 可 以 看 做 是 公理 的 模型 。 假 设 预 期 解释 是 知识 库 的 模型 ， 那 么 如 果 某 - 


一 命题 是 知识 库 的 轩 辑 结论 ， 则 在 该 预期 解释 中 该 命题 为 真 ， 因 为 在 知识 库 的 所 有 模型 
中 它 都 为 真 。 

逻辑 结论 的 概念 看 来 是 从 公理 化 世界 推导 出 隐 含 信息 的 有 力 工具 。 假 设 KB 代表 着 关 
于 预期 解释 的 知识 ， 也 就 是 说 预期 解释 是 知识 库 的 一 个 模型 ， 是 所 有 系统 都 知道 的 预期 解 
释 。 如 果 KBFg， 那 么 g 在 预期 解释 中 一 定 为 真 ， 因 为 它 在 知识 库 的 所 有 模型 中 都 为 真 。 
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MAR KB Eg, EREKUWR g 不 是 该 知识 库 的 逻辑 结论 ， 则 存在 g 为 假 的 KB 的 模型 。 
对 所 关心 的 计算 而 言 ， 预 期 解释 可 以 是 其 中 g 为 假 的 KB 的 模型 ， 因 而 不 能 确定 在 预期 解 
释 中 g 是 否 为 真 。 

给 定 一 个 知识 库 且 其 为 真 ， 则 知识 库 的 模型 对 应 着 该 世界 可 能 被 描述 的 所 有 形式 。 

CG) 5-3] 考虑 例 5-2 的 知识 库 。 用 户 可 以 解释 这 些 符 号 的 含义 ， 计算机 不 知道 这 些 
符号 的 含义 ， 但 是 仍然 可 以 根据 已 被 告知 的 信息 得 出 结论 。 计算机 可 以 得 出 在 预期 解释 中 
“苹果 被 吃 ” 是 正确 的 。 计 算 机 因为 根据 预期 解释 不 知道 “Sam 在 房间 里 ”是 真 还 是 假 ， 所 以 
不 能 断定 “ 灯 是 开 着 的 ”这 个 命题 是 否 正 确 。 < 

如 果 知 识 库 的 设计 者 告诉 计算 机 假 的 信息 ， 即 在 预期 解释 中 有 一 些 假 的 公理 ， 那 么 计 
算 机 从 预期 解释 中 可 能 无 法 得 出 正确 的 答案 。 

人 们 需要 知道 ， 如 果 计 算 机 不 具备 在 世界 中 感知 和 行动 的 能 力 ， 那 么 计算 机 就 不 会 知 
道 符 号 的 含义 。 符 号 的 含义 是 人 为 给 出 的 。 计 算 机 知道 的 关于 世界 的 所 有 东西 都 是 被 告知 
的 东西 。 然 而 ， 由 于 计算 机 能 够 得 出 知识 库 的 逻辑 结论 ， 所 以 它 可 以 得 到 预期 解释 中 为 真 
的 结论 。 


5.2 命题 确定 子 名 


fe i WE FA (propositional definite clause) 语 言 是 命题 演算 的 子 语言 ， 它 不 允许 存在 
不 确定 性 或 歧义 性 。 在 这 种 语言 中 ， 命 题 与 在 命题 演算 中 定义 的 命题 具有 相同 的 含义 ， 但 
在 知识 库 中 不 是 所 有 的 复合 命题 都 是 被 允许 的 。 
命题 确定 子 句 的 语法 (syntax) 如 下 : 
。 原子 命题 (atomic proposition) 或 原子 (atom) 与 在 命题 演算 中 的 定义 是 一 样 的 。 
。 主体 (body) 是 一 个 原子 或 者 多 个 原子 的 合 取 。 递 归 地 定义 ， 一 个 主体 可 以 是 一 个 
原子 命题 或 形 如 “a 5” 的 形式 ， 其 中 a 是 一 个 原子 ,，b 是 一 个 主体 。 
。 确定 子 句 (definite clause) 既 可 以 是 一 个 原子 a， 称 为 原子 子 旬 (atomic clause), th 
可 以 是 形式 为 ab 的 子 句 ， 称 为 规则 (rule)， 其 中 a 是 头 部 (head)， 是 一 个 原子 ， 
而 5 是 主体 。 
。 知识 库 (knowledge base) 是 一 组 确定 子 句 的 集合 。 
【 例 5-4】 在 例 5-2 中 知识 库 的 元 素 全 部 都 是 确定 子 句 。 
以 下 不 是 确定 子 句 : 
apple_is_eaten \ bird_eats_apple 
sam_is_in_room À night_time<-switch_1_is_up 
Apple_is_eaten<-Bird_eats_apple 
happyV sad V “alive 


由 于 原子 必须 以 小 写字 母 开 始 ， 第 三 个 命题 不 是 确定 子 句 。 < 
需要 注意 的 是 ， 确 定子 句 是 一 种 受 限制 的 子 句 形式 。 例 如， 确定 子 名 
a<bAcAd 

等 价 于 子 句 


aV 7bV meV -7d 

通常 来 讲 ， 一 个 确定 子 句 等 价 于 恰 有 一 个 正文 字 ( 非 否 的 原子 ) 的 子 句 。 命 题 确定 子 钉 
不 能 表示 原子 的 析 取 (如 a V5) 或 原子 的 非 的 析 取 (如 一 cV Wd). 

【 例 5-5〗 考虑 如 何 按照 用 户 角度 语义 观 的 方法 对 图 5-2 的 电气 图 进行 公理 化 。 我 们 
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可 以 使 用 这 种 公理 化 的 方法 来 模拟 电力 系统 。 而 在 后 面 的 章节 中 ,我 们 会 进一步 扩展 如 何 
基于 所 观察 到 的 征兆 来 进行 错误 诊断 。 


断路 器 





图 5-2 已 对 组 件 命 名 的 电气 环境 


假设 根据 开关 的 位 置 和 断路 器 的 状态 的 表达 可 以 确定 灯 的 状态 是 开启 还 是 关闭 的 ， 如 
果 观 察 到 某 些 非 预料 的 情况 ， 最 终 我 们 也 可 以 判断 电线 、 开 关 或 断路 器 是 否 存在 问题 。 当 
然 ， 前 提 是 我 们 并 不 关心 电线 的 颜色 、 开 关 的 设计 、 电 线 的 长 度 或 重量 、 电 线 和 电灯 的 生 
产 日 期 ， 抑 或 是 你 可 以 想象 的 此 领域 的 其 他 细节 。 

接 下 来 ， 我 们 选择 公理 化 的 抽象 层次 ， 其 目的 是 在 最 通用 的 层次 内 对 该 领域 进行 表 
达 ， 通 过 这 种 表示 ， 诊 断 助手 可 以 解决 该 层次 中 需要 解决 的 问题 。 我 们 同时 也 希望 ， 这 个 
层次 是 该 环境 中 Agent 所 能 获得 的 信息 层次 。 例 如 我 们 可 以 表示 实际 的 电压 和 电流 ， 同 样 
可 以 表示 一 个 12 伏 直流 系统 或 120 伏 交 流 系 统 ， 但 是 这 对 于 开关 如 何 影响 电灯 开 闭 的 问 
题 来 说 是 无 关 紧要 的 。 相 反 ， 我 们 表示 这 个 领域 是 在 常识 层面 上 ， 即 非 电 工人 员 用 以 描述 
此 领域 的 层面 ， 就 是 根据 电流 通过 电线 从 外 面 流向 开关 来 点 亮 灯 ， 并 且 如 果断 路 器 和 开关 
被 打开 并 工作 ， 那 么 断路 器 和 照明 开关 是 与 电线 相连 的 。 

我 们 必须 要 选择 哪些 问题 是 需要 表示 的 。 假 设 我 们 想 表示 以 下 命题 : 灯 是 否 是 亮 的 ， 
电线 是 否 是 通 的 ， 开 关 是 开 的 还 是 关 的 ,组件 是 否 是 坏 的 。 

那么 我 们 要 选择 该 世界 中 有 特殊 意义 的 原子 。 我 们 可 以 用 如 下 描述 性 的 名 字 ， 例 如 用 
up_ss 来 表示 开关 ss 是 否 置 上 ， 用 livel Rath 是 否 是 亮 的 ( 即 是 否 有 电流 进入 )。 计 
算 机 并 不 知道 这 些 名 字 的 含义 ， 也 无 法 了 解 原子 名 字 的 组 成 。 

在 这 个 阶段 ， 我 们 什么 也 没有 告诉 计算 机 。 它 不 知道 什么 是 原子 也 不 知道 这 些 原子 所 
代表 的 意思 。 

一 旦 我 们 决定 了 使 用 什么 样 的 符号 表示 什么 含义 ， 我 们 就 使 用 确定 子 句 告诉 系统 在 真 
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实 世 界 中 什么 为 真 的 背景 知识 。 定 义 最 简单 的 确定 子 句 形式 如 下 (这 些 原 子 子 句 没有 
主体 ) : 

light_l, 

light_l, 

ok_l, 

ok_l, 

ok_ch, 

ok_chz 

live_outside 

设计 者 可 以 观察 到 该 领域 内 的 部 分 内 容 ， 并 且 知 道 如 果 电 线 w 是 通 的 那么 灯 L 就 是 
亮 的 ， 因 为 电线 和 电灯 是 连 在 一 起 的 ， 但 是 可 能 不 知道 ww 是否 是 通 的 。 表 示 这 样 的 知识 
要 通过 以 下 规则 : 

live_l, <-live_wy 

live_twy<live_w, Nup_s» 

live_wy <-live_w. \ down_s: 

live_w,<-live_w; 人 zz yi 

live_wy<-live_w, A down_s, 

live_l,<-live_wy, 

live_w,<-live_w; \ up_s; 

live_p,<-live_w, 

live_w 3<-live_ws Nok_ ch 

live_p2~<-live_ws 

live_w,~<-live_w; A ok_chy 

live_ws;~<-live_outside 

lit_l,<light_l, A live_l, AN ok_l, 

lit_ly<light_ls A live_l, \ ok_l, 

在 运行 时 用 户 能 够 输入 观察 到 的 当前 开关 的 状态 ， 例 如 

s 是 置 下 的 (dorwn_ si) 

s 是 置 上 的 (wp_s;) 

s 是 置 上 的 (xz ss) 

这 个 知识 库 由 所 有 上 述 确定 子 句 组 成 ， 不 论 是 背景 知识 还 是 观察 值 ， 它 都 进行 了 
表示 。 < 


5.2.1 问题 与 解答 


为 了 确定 在 某 特定 的 世界 中 还 有 哪些 事物 为 真 ， 需 要 为 该 世界 建立 描述 。 给 定 计算 机 
有 关 某 特定 领域 的 知识 库 后 ， 用 户 就 可 以 向 计算 机 询问 该 领域 的 有 关 问 题 。 计 算 机 可 以 回 
答 该 命题 是 否 是 该 知识 库 的 逻辑 结论 。 如 果 用 户 理解 该 领域 中 原子 的 含义 ， 那 么 用 户 可 以 
解释 该 答案 。 

查询 (query) 是 询问 某 一 命题 是 否 是 知识 库 的 逻辑 结论 的 一 种 方式 。 一 旦 系统 提供 了 
知识 库 ， 就 可 以 使 用 查询 来 询问 某 一 公式 是 否 是 该 知识 库 的 逻辑 结论 。 查 询 形 式 如 下 : 

ask b 
其 中 , 5 是 主体 。 

如 果 主 体 是 知识 库 的 逻辑 结论 ， 查 询 的 问题 就 解答 (answer) 为 "是 ”， 如 果 不 是 知识 库 
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的 逻辑 结论 就 解答 为 "和 否 "。 后 者 并 不 一 定 意味 着 在 该 预期 解释 中 主体 是 假 的 ， 而 是 基于 知 
识 库 提供 的 知识 不 能 确定 它 是 真 还 是 假 。 
【 例 5-6〗 如 果 将 例 5-5 的 知识 库 告 诉 计算 机 ， 它 可 以 回答 如 下 的 查询 。 查 询 
ask light_l; 
的 回答 是 “是 ”。 查 询 
ask light_ls 
的 回答 是 “ 否 ”。 计 算 机 没有 足够 的 知识 知道 上 是 否 是 灯 。 查 询 
ask lit_l 
的 回答 是 “是”， 在 所 有 的 模型 中 这 个 原子 都 是 真 的 。 
用 户 可 以 通过 预期 解释 来 解释 这 些 答 案 。 < 


5.2.2 验证 


到 目前 为 止 ， 我 们 已 经 知道 了 答案 是 什么 ,但 是 不 知道 它 是 如 何 被 计算 出 来 的 。 我 们 
定义 了 符号 上 规定 哪些 命题 应 是 知识 库 的 逻辑 结论 ， 但 不 知道 怎样 计算 它们 。 通过 演绎 
(Cdeduction) 我 们 可 以 确定 某 个 命题 是 否 是 知识 库 的 逻辑 结论 。 演 绎 是 一 种 特殊 形式 的 推理 
(inference) 。 

验证 (proof) 是 一 种 机 械 性 的 可 推导 过 程 ， 表 明 某 一 命题 从 一 个 知识 库 罗 辑 推 出 。 定 
理 (theorem) 是 可 证 明 的 命题 。 验 证 过 程 (proof procedure) 是 一 个 用 于 推导 知识 库 的 结论 
的 算法 这 个 算法 可 能 是 不 确定 的 。 如 下 面 描述 的 “不 确定 性 选择 ”。 

给 定 一 个 验证 过 程 ， KB-g 表示 命题 g 可 以 通过 知识 库 KB 证 明 (proved) 或 导出 
(derived) 。 

验证 过 程 的 质量 体现 在 它 是 否 计算 了 想 要 计算 的 内 容 。 

如 果 任 何 可 以 从 知识 库 中 导出 的 命题 都 是 知识 库 的 逻辑 结论 ， 则 称 该 验证 过 程 为 合理 
的 (sound) 。 即 如 果 KBHsg， 和 那么 KBE. 

如 果 对 于 知识 库 的 每 一 个 逻辑 结论 都 存在 一 个 验证 ,那么 该 验证 过 程 称 为 完备 的 
(complete)。 即 如 果 KBFr， 那 么 KBhHs。 

我 们 有 两 种 方式 为 命题 确定 子 句 构建 验证 过 程 : 一 种 是 自 底 向 上 的 过 程 ， 另 一 种 是 自 
顶 向 下 的 过 程 。 

1. 自 底 向 上 的 验证 过 程 

第 一 个 验证 过 程 是 自 底 向 上 的 验证 过 程 (bottom-up proof procedure), ， 即 导出 逻辑 结 
果 。 自 底 向 上 证 明 过 程 如 同 建 房子 ， 我 们 需要 先 建 好 房子 结构 才能 自 底 向 上 建 房 。 自 底 向 
上 的 验证 过 程 需要 先 建立 原子 命题 。 该 验证 方法 不 同 于 自 顶 向 下 方法 ， 自 顶 向 下 方法 是 起 
始 于 一 个 查询 ， 并 试图 找到 支持 该 查询 的 确定 子 句 。 有 时 我 们 会 说 自 底 向 上 的 过 程 是 在 确 
定子 句 上 做 正 向 链接 (forward chaining) ， 是 从 我 们 所 知道 的 事实 去 推理 ， 而 不 是 从 查询 的 
反 向 去 推理 。 

自 底 向 上 验证 的 总 体 思路 是 基于 推导 规则 (rule of derivation), 广义 的 规则 推理 形式 
称 为 假 言 推理 : 

如 果 在 知识 库 中 “h<-bl No Nb" R-PRAF A, HHL 1 MRA, BAH 
成 立 。 

这 个 规则 中 也 包含 了 当头 一 0 时 的 情况 ; 自 底 向 上 的 验证 过 程 可 以 在 没有 主体 的 确定 
子 句 的 头 部 推导 出 原子 命题 。 
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图 5-3 给 出 了 计算 确定 子 句 集 合 KB 的 结论 集合 C 的 验证 过 程 。 在 这 个 验证 过 程 中 ， 
WR g 是 一 个 原子 且 g eC, 程序 DCDeductionBU 运行 后 有 KBH-g。 对 于 合 取 ， 如 果 
gi:EC， 其 中 每 个 i 满足 0 二 i 二 k&, W KB Hg A Agr 


: procedure DCDeductionBU(KB) 
Inputs 

KB: 确定 子 句 集合 
Output 

原子 集合 ， 即 KB 的 逻辑 结果 


1 

2: 
3: 
4; 
5: 
6: 
7: 
8: 


repeal 
select KB PR heb 和信 … Aba” 其 中 ， 对 所 有 i, BE C. hEC 
C= CU {h} 

until 没有 其 他 的 确定 子 名 可 以 选择 


return C 





图 5-3 计算 KB 结果 的 自 底 向 上 验证 程序 


【 例 5-7) 假设 给 出 系统 的 知识 库 KB 

axb\c 

be-d Ne 

beg Ne 

d 

fag 

自 底 向 上 的 程序 中 C 的 跟踪 值 如 下 : 

{} 

{d} 

{e,d} 

{c+e,d} 

{b,c,e,d} 

{asb.c,e,d} 

EZA AAK, C=la, bs, c, e, d), AWARE KBHa, KBH, FF. 

在 知识 库 中 从 没有 使 用 过 最 后 这 条 规则 。 自 底 向 上 的 验证 过 程 不 能 推导 f Ae. AW 
可 能 存在 某 一 模型 ， 其 中 的 f 和 g BAR. MU SMe 在 本 验证 中 不 能 被 推导 出 来 。 < 

如 图 5-3 的 验证 程序 可 以 建立 许多 命题 。 

合理 性 (soundness) C 中 的 每 个 原子 都 是 知识 库 KB 中 的 逻辑 结果 。 即 如 果 有 KBE 
g 则 KBFg。 为 了 说 明 这 一 点 ,假设 在 集合 C 中 存在 一 个 不 符合 知识 库 KB 的 逻辑 结果 的 
原子 。 如 果 存 在 这 样 的 原子 ， 那 么 肯定 有 被 首先 加 入 C 的 元 素 ， 该 元 素 在 KB 的 所 有 模型 
中 都 不 为 真 。 假 设 这 个 原子 是 hh， 并 假设 其 在 KB 的 模型 T PRHA, WA h 必 是 产生 的 
第 一 个 IT 中 不 为 真 的 元 素 。 由 于 已 经 产生 ， 则 在 知识 库 KB 中 必定 存在 确定 子 句 一 
b Ae A bms biban 都 是 属于 集合 C 的 (其 中 存在 着 一 种 特殊 情况 ,，h 是 原子 子 句 ， 则 
7 一 0) 6 在 h 之 前 产生 且 在 模型 1 中 都 为 真 。 在 模型 工 中 这 个 子 句 的 头 部 是 假 ， 主 体 是 
真 ， 因 此 ， 通 过 确定 子 句 的 真 值 判断 出 这 个 子 句 在 工 中 为 假 。 这 与 了 是 知识 库 开 33 的 模型 
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这 一 事实 相 了 矛盾 。 因 此 ， 集 合 C 中 的 每 个 元 素 都 是 知识 库 KB 的 逻辑 结果 。 

复杂 性 (complexity) 图 5-3 中 算法 的 结束 条 件 和 循环 次 数 都 是 由 知识 库 中 确定 子 
句 的 数量 决定 的 。 这 很 容易 看 出 ， 因 为 每 个 确定 子 句 只 能 用 一 次 。 因 此 ， 如 果 可 以 索 
引 到 确定 子 句 那么 内 部 循环 可 以 连续 执行 ,程序 算法 的 时 间 复 杂 度 在 知识 库 中 是 呈 线 
性 的 。 

不 动 点 (fixed point) 图 5-3 算法 中 最 后 生成 的 C 被 称 为 不 动 点 ， 因 为 推导 规则 的 任 
何 更 进一步 应 用 都 不 能 改变 C。 由 于 没有 再 小 的 不 动 点 了 ，C 就 是 最 小 的 不 动 点 (mini- 
mum fixed point), 

令 工 是 最 小 不 动 点 中 每 一 个 原子 都 为 真 且 每 一 个 不 在 最 小 不 动 点 中 的 原子 都 为 假 的 解 
释 。 为 了 说 明 7 一 定 是 KB 的 一 个 模型 假设“h<-b A+ Abn” CKB 在 模型 1 PAR. IX 
种 情况 唯一 可 能 发 生 的 途径 是 ， 假 设 1，…，6b, 在 不 动 点 中 ， 但 h 不 在 不 动 点 中 。 通 过 
解释 ， 推 导 规 则 可 以 将 疡 加 入 不 动 点 中 ， 则 对 于 其 是 否 在 不 动 点 中 产生 了 一 个 矛盾 。 因 
此 ， 在 KB 中 不 能 存在 确定 子 句 解释 为 假 且 在 不 动 点 中 的 情况 。 因 此 了 是 知识 库 KB 的 一 
个 模型 。 

完整 性 (completeness) ”假设 KBFg， 则 在 每 个 知识 库 模型 中 g 都 为 真 ， 于 是 在 定义 
最 小 不 动 点 的 模型 [中 为 真 ， 在 C 中 也 为 真 ， 因此 KBHg. 

上 面 由 最 小 不 动 点 所 定义 的 模型 T 称 为 最 小 模型 (minimum model), HRARD HA 
命题 。 每 一 个 在 I 中 的 原子 在 其 他 模型 中 必 为 真 。 

2. 自 顶 向 下 的 验证 过 程 

另 一 种 验证 方法 是 从 查询 反 向 搜索 或 是 自 顶 向 下 搜索 ， 来 确定 其 是 否 是 给 定 的 确定 子 
句 的 逻辑 结论 。 这 个 过 程 被 称 为 命题 确定 子 句 解析 (propositional definite clause resolu- 
tion) 或 SLD 解析 。 其 中 SL 代表 使 用 线性 策略 选择 原子 ，D 代表 确定 子 句 。 这 是 一 种 更 为 
普遍 的 解析 方法 。 


不 确定 性 选择 


在 许多 人 工 智 能 程序 中 ， 我 们 希望 从 如 何 求解 中 分 离 出 来 解 的 定义 。 通 常 选 用 不 确定 
性 算法 ， 不 确定 性 (non-deterministic) 算法 指 程序 中 存在 着 没有 明确 指明 的 选择 。 以 下 是 
两 种 不 确定 性 选择 的 类 型 : 
。 不 介意 不 确定 性 (don’t-care non-determinism)， 以 图 5-3 中 “select” 为 例 。 在 这 种 
不 确定 性 形式 中 ， 车 一 种 选择 没有 给 出 解决 方案 ， 那 么 尝试 其 他 蔡 代 的 选择 也 是 
无 济 于 事 的 。 不 介意 不 确定 性 用 在 对 于 有 限 数量 的 资源 产生 大 量 需 求 的 资源 分 配 
问题 中 ,每 一 次 ， 调 度 算法 需要 选 出 谁 得 到 了 哪些 资源 。 结 果 的 正确 性 并 不 受 选 
择 的 影响 ,但 是 效率 和 终止 条 件 可 能 受 其 影响 。 当 存在 着 一 个 无 限 序 列 的 选择 时 ， 
如 果 最 终 选 择 了 一 个 可 被 重复 选择 的 元 素 ， 那 么 这 是 一 种 公平 (fair) 的 选择 机 制 。 
一 个 元 素 的 问题 反复 多 次 不 被 选中 的 称 为 饥饿 (starvation)。 我 们 要 确保 任何 选择 
都 是 公平 的 。 
。 不 知道 不 确定 性 (don’t-know non-determinism)， 以 后 面 的 图 5-4 中 “choose” 为 例 。 
一 个 挑选 没有 得 出 解决 方案 并 不 意味 着 其 他 的 挑选 不 会 得 出 解决 方案 。 我 们 经 常 
讲 ， 在 每 一 点 的 预言 (oracle) 可 以 实例 化 ， 不同 的 挑选 将 会 得 到 不 间 的 解 。 由 于 我 
们 的 Agent 无 法 获知 这 样 的 预言 ， 所 以 Agent 需要 搜索 整个 空间 交替 挑选 。 第 3 
章 给 出 了 算法 搜索 空间 。 
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不 知道 不 确定 性 在 计算 复杂 性 理论 中 扮演 着 很 重要 的 角色 。 了 问题 就 是 多 项 
式 时 间 内 能 够 解决 的 问题 。NP 类 问题 包含 了 通过 预言 可 以 在 多 项 式 时 间 内 解决 的 
间 题 ， 而 预言 则 是 每 次 选取 正确 的 值 ， 这 等 价 于 一 个 解 在 多 项 式 时 间 内 可 被 验证 。 
ANEREM PENP, 这 意味 着 没有 这 样 的 预言 存在 。 复 杂 性 理论 的 最 重大 发 现 
是 在 NP 类 里 所 有 的 最 难 问 题 都 是 同等 复杂 的 ， 如 果 其 中 一 个 问题 可 以 用 多 项 式 
时 间 来 求解 ， 那 么 所 有 这 些 NP 问题 都 可 以 用 多 项 式 时 间 求 解 。 这 些 问 题 是 NP SE 
全 (NP-complete) 的 。 如 果 一 个 问题 至 少 与 NP 完全 问题 一 样 难 ， 则 这 个 问题 就 是 
NP 难 (NP-hard) 的 问题 。 

在 本 书 中 ， 我 们 对 于 不 介意 不 确定 性 问题 使 用 “select” 术 语 ， 对 不 知道 不 确定 性 问题 
使 用 “choose” 术 语 。 在 不 确定 性 过 程 (non-deterministic procedure) 中 ， 我 们 假设 每 一 个 预 
言 都 可 以 对 应 产生 合适 的 筛选。 因此 ， 如 果 在 一 次 筛选 中 产生 挑选 状态 ， 则 成 功 ， 或 者 如 
果 没 有 这 样 的 筛选， 则 会 失败 (fail)。 不 确定 性 过 程 可 以 有 很 多 答案 ， 其 中 若 有 很 多 筛选 
出 是 成 功 的 ， 若 没有 合适 的 筛选 则 将 会 失败 。 我 们 也 上 明确 定义 失败 的 筛选 为 不 成 功 的 。 预 
言 可 以 通过 搜索 来 获得 。 


自 顶 向 下 的 验证 过 程 可 以 通过 答案 子 句 的 形式 理解 。 答 案子 名 (answer clause) 的 形式 
如 下 : 

yessa; Nar N 人 an 
其 中 yes 是 一 个 特殊 的 原子 。 直 观 上 看 ， 当 查询 的 结果 是 “yes” 的 时 候 ，yes 就 为 真 。 

如 果 查 询 为 : 

ask gl A+ A dm 

初始 答案 子 句 为 : 

yes< -gl Ace N ae 

给 定 一 个 答案 子 句 ， 自 顶 向 下 算法 在 答案 子 句 主体 中 挑选 一 个 原子 。 假 设 其 选择 了 原 
Fa, Wa, 称 为 目标 (goal) 。 算 法 通过 一 步 一 步 的 归结 (resolution) 来 运行 。 在 一 步 归 结 
中 ， 其 选择 KB Pa, 作为 头 部 的 确定 子 句 。 如 果 没 有 这 样 的 子 句 ， 则 归结 失败 。 对 于 上 述 
答案 子 句 的 分 解 (resolvent) 选 择 a; 的 过 程 中 使 用 到 了 确定 子 句 

a.<b; A Ab, 
那么 ， 分 解 是 答案 子 句 : 

yesa, Ae Aami Abi Aves A bp Aaii Avs Nam 
ERMER., ARTA PA A hy wh oe PES E EET T ER. 

答案 (answer) 是 指 有 一 个 空 主体 (m 二 0) 的 管 案子 句 。 因 此 ， 这 个 答案 子 句 即 为 
yes, 

对 于 知识 库 KB 中 查询 "ask qg A A q”, SLD 推导 (SLD derivation) 是 答案 子 句 的 序 
列 Yor Yis > Yas HEP 

。 y 是 根据 原始 查询 得 到 的 答案 子 句 ， 即 答案 子 句 yes<-qi A Nge 

。 y 是 知识 库 KB 中 确定 子 句 y-: 的 分 解 。 

。 ¥, 是 答案 。 

该 自 顶 向 下 算法 的 另 一 种 思考 方式 是 搜集 所 有 需要 证 明 的 原子 的 集合 C。 每 一 个 需要 
被 证 明 的 原子 是 一 个 目标 。 起 始 ，G 是 查询 中 原子 的 集合 。 子 句 ab A Ab, 指 目标 
bi1，*…，b, 可 以 取代 目标 a。 每 个 目标 5b; 都 是 a 的 一 个 子 目标 (subgoal)。 需 要 被 证 明 的 G 
对 应 了 答案 子 句 yes<G, 
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图 5-4 中 的 程序 是 用 于 解决 查询 的 程序 ， 该 程序 遵循 推导 的 定义 。 在 这 个 程序 中 ，G 是 
171] 答案 子 句 的 主体 中 原子 的 集合 。 如 果 算 法 中 存在 一 个 点 ， 在 这 个 点 上 必须 选择 一 个 确定 子 句 
来 解决 冲突 ， 则 这 个 程序 是 不 确定 的 。 如 果 有 导致 G 为 空 集 的 选择 ， 返回 yes， 和 否则 失败 。 


此 算法 将 子 句 主体 视 为 一 组 原子 
集合 ，G 也 是 一 组 原子 集合 ， 也 可 以 
通过 将 G 中 的 重复 个 体 移 除 来 获得 这 


1; non-deterministic procedure DCDeductionTD( KB, Query) 


Inputs 


KB: 确定 子 句 集合 
个 集合 ， 也 可 以 通过 将 G 作为 一 Query: 待 证 明 原 子 集合 
top nee KB Query 否则 程序 失败 
i a Local 
注意 算法 要 求 每 次 选择 的 原子 使 G 为 原子 集合 


用 相同 的 选择 策略 。 不 需要 在 不 同 的 


G *=Query 


repeat 
选择 集合 间 进行 搜索 ,但 是 所 选集 合 it 有 全 
影响 算法 的 执行 效率 。 一 般 性 的 选择 ppp 
策略 是 在 原子 的 排序 中 选择 最 左边 的 until G—{} ` 


原子 。 这 是 一 个 不 公平 的 策略 ; 当 不 
同 的 策略 失败 时 ， 其 可 能 会 陷 人 死 循 
环 。 最 好 的 选择 策略 是 选择 最 有 可 能 
失败 的 原子 。 
【 例 5-8] 
ab Nc 
b<d Ne 
beghe 
d 
f-ahg 
询问 如 下 : 


ask a 


假设 给 出 知识 系统 如 下 : 


return yes 





图 5-4 自 项 向 下 确定 子 句 验证 程序 


[172] 下 面 的 推导 是 对 应 于 图 5-4 的 重复 循环 中 对 于 G 的 循序 分 配 。 假 设 G 通过 有 序 表 表 
示 ， 并 且 总 是 选择 G 中 最 左边 的 原子 : 
yes<a 
yeseb Nc 
yesed\eNc 
yese ñc 


yes*c 
yes<e 


yess 


下 面 是 选择 序列 ， 当 选择 了 对 应 于 5 的 第 二 个 确定 子 句 时， 证 明 过 程 失 败 。 


yessa 
yess-bAc 
yesgANeAc 


如 果 选 择 了 g， 则 没有 其 他 规则 可 以 选择 ， 那 么 证 明 的 尝试 失败 。 
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当 自 项 向 下 的 程序 已 经 得 出 答案 后 ， 可 以 使 用 推导 中 的 规则 在 自 底 向 上 程序 中 对 查询 
进行 推导 。 同 样 ， 自 底 向 上 的 原子 证 明 也 可 以 使 用 自 顶 向 下 的 推导 过 程 。 这 种 等 效 可 以 用 
于 表明 自 顶 向 下 的 证 明 过 程 的 合理 性 和 完整 性 。 按 照 定义 ， 自 项 向 下 的 证 明 过 程 多 次 重复 
证 明 相 同 的 原子 花费 额外 的 时 间 ， 而 自 底 向 上 的 程序 每 个 原子 只 证 明 一 次 。 然 而 ， 自 底 向 
上 的 程序 证 明 每 一 个 原子 ， 而 自 顶 向 下 的 程序 证 明 与 查询 相关 的 原子 。 

图 5-4 的 自 顶 向 下 的 非 确 定性 算法 结合 选择 策略 就 引出 了 树 形 搜索 图 ,搜索 图 中 每 个 
节点 表示 一 个 答案 子 句 。 邻 域 节 点 子 句 yesa A Aans JEP w 是 选择 的 原子 ， 通 过 确 
定 a; 来 找到 所 有 可 能 的 答案 子 句 。 对 于 每 一 个 头 部 为 a; 的 子 句 都 有 一 个 邻居 节点 。 每 一 
次 搜索 的 目标 节点 的 形式 为 :yes 一 。 

【 例 5-9〗 给 定 如 下 的 知识 库 : 

ab Ac a<g ash yesa 

bj bek dem | 


ese—hd 

d=p f-m fep yes+—b^c^d japa” \ 

Si ri km 二 PAS yesemd 

m yes—j LAJ 
询问 如 下 : yaped S 

ask aAd yes—m*d as lal 

在 SLD 推导 的 搜索 图 中 ， 假 设 在 每 个 答案 子 句 中 选 we mgd aaa 
择 最 左边 的 原子 ， 搜 索 图 如 图 5-5 所 示 。 < yo rp 

对 于 大 多 数 问题 ， 我 们 都 没有 给 出 静态 的 搜索 图 ， LS 


因为 这 需要 预测 每 一 个 可 能 的 查询 。 更 为 现实 的 是 动态 
构造 搜索 图 。 所 需要 的 方法 是 生成 节点 的 邻居 。 所 选择 BO? 自 页 向 下 推 字 的 搜索 图 
的 答案 子 句 中 的 原子 决定 了 邻居 集合 。 对 于 每 一 个 所 选择 的 原子 作为 头 部 的 规则 都 存在 一 
个 邻居 。 

第 3 章 中 的 所 有 搜索 方法 都 可 用 于 进行 搜索 空间 的 搜索 。 因 为 我 们 只 关心 查询 结果 是 
否 是 合乎 逻辑 的 ， 所 以 我 们 只 是 需要 一 个 目标 节点 的 路 径 而 不 是 一 条 最 佳 路 径 。 每 个 查询 
有 不 同 的 搜索 空间 。 在 每 一 步 选 择 不 同 的 需要 解决 的 原子 会 导致 搜索 空间 的 不 同 。 


5.3 知识 表示 问题 . 
5.3.1 背景 知识 与 观察 


观察 (observation) 是 一 种 在 线 接收 的 来 自用 户 、 传 感 器 或 其 他 知识 源 的 信息 。 本 章 假 
设 一 个 观察 是 一 个 原子 命题 ， 由 于 不 同 观察 是 隐 式 连接 的 ， 所 以 一 组 观察 可 表示 为 一 组 连 
接 的 原子 命题 。 虽 然 用 户 和 传感器 都 无 法 从 观察 到 的 世界 中 直接 获取 规则 ， 但 是 Agent 可 
通过 背景 知识 从 观察 中 得 出 有 用 的 内 容 。 

在 许多 推理 框架 中 ， 观 察 补 充 到 背景 知识 中 。 但 在 其 他 推理 框架 中 (例如 ， 测 因 推 再、 
概率 推理 、 学 习 等 )， 观 察 与 背景 知识 相 分 离 。 

不 能 期 望 用 户 提供 的 内 容 都 是 真实 的 。 首 先 ， 用 户 不 确定 知识 的 相关 性 ， 其 次 ， 他 们 
也 不 确定 采取 何 种 词汇 来 表达 。 本 体 (ontology) 和 用 户 界 面 可 解决 词汇 使 用 的 问题 ， 前 者 
指明 符号 含义 ， 后 者 允许 用 户 选取 真实 含义 。 然 而 ， 许 多 问题 太 过 复杂 ， 如 : 知识 相关 性 
取决 于 其 他 知识 的 真实 性 ， 而 繁复 的 相关 事实 ， 使 得 用 户 即 使 通过 复杂 的 图 形 用 户 界 面 也 
难以 确定 所 有 内 容 的 真实 性 。 
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同样 ， 被 动 传感器 可 提供 原子 命题 合 取 的 直接 观察 ， 但 主动 传感器 必须 接收 Agent 发 
出 的 任务 所 需 的 查询 信息 。 


5.3.2 询问 用 户 


在 设计 或 离线 时 ， 通常 难 以 获得 特例 信息 。 特 例 信息 源 于 在 线 的 用 户 、 传 感 器 等 外 部 
知识 源 。 例 如 ， 医 疗 诊断 程序 将 可 能 的 疾病 和 症状 表示 成 确定 子 句 ， 但 它 不 具有 特定 病人 
的 实际 症状 等 信息 。 因 为 用 户 通常 不 确定 哪些 信息 相关 ， 也 不 了 解 表示 语言 的 语法 ， 所 以 
不 能 期 望 用 户 来 提供 一 个 特例 的 所 有 信息 。 作 为 用 户 ， 更 愿意 通过 自然 语言 来 回答 实际 问 
ml, Ml) AAA (querying the user) 的 思路 是 向 用 户 求证 相关 问题 ， 使 得 用 户 成 为 系统 的 信 
息 源 ， 从 而 确定 哪些 信息 是 相关 的 ， 并 有 助 于 验证 查询 。 

在 自 顶 向 下 的 验证 程序 中 融入 询问 用 户 机 制 是 从 用 户 获 取信 息 的 最 简单 的 方法 。 在 该 
机 制 下 ， 如 果 用 户 在 运行 时 知道 某 原子 的 真 值 ， 则 该 原子 是 可 询问 的 (askable) 。 自 顶 向 下 
的 验证 过 程 中 ， 待 验证 的 原子 除 可 使 用 知识 库 中 的 命题 子 句 来 证 明 外 ， 当 原子 可 询问 时 ， 
还 可 询问 用 户 该 原子 是 否 为 真 ， 而 用 户 只 被 询问 与 查询 相关 的 原子 。 可 以 选择 的 原子 分 为 
以 下 三 种 类 型: 

。 对 于 用 户 未 知 答案 的 原子 ， 系 统 无 需 询问 。 

。 对 于 用 户 还 没有 提供 答案 的 可 询问 原子 ， 可 以 询问 用 户 ， 并 记录 答案 。 

。 对 于 用 户 已 经 提供 了 答案 的 可 询问 原子 ， 使 用 该 答案 ， 无 需 询 问 用 户 。 

自 底 向 上 的 验证 过 程 也 可 使 用 询问 用 户 机 制 ， 但 应 避免 询问 所 有 的 可 询问 原子 ， 见 习 
题 5. 5。 

需 注意 ， 系 统 角 色 和 用 户 角色 具有 对 称 性 ， 均 可 提出 问题 也 可 回答 问题 。 从 顶层 的 角 
度 ， 用 户 询问 系 统 问 题 ， 而 在 每 一 步 中 ， 系 统 询 问 问题 ， 并 通过 寻找 相关 确定 子 句 或 者 询 
问 用 户 获 得 回答 。 整 个 系统 可 以 用 问题 和 答案 的 一 套 规约 来 描述 。 

【 例 5-10] 在 例 5-5 的 电气 领域 中 ， 无 需 期 望 房子 的 设计 师 了 解 开关 的 位 置 或 者 期 望 
用 户 知道 哪个 开关 连接 到 哪 条 电线 上 。 合 理 的 做 法 是 ， 除 开关 位 置 外 ， 所 有 确定 子 句 均 由 
设计 师 给 出 ， 然 后 将 开关 位 置 设置 成 为 可 被 询问 的 。 

下 面 是 可 能 的 对 话 ， 由 用 户 提出 查询 ， 并 根据 询问 回答 是 或 否 。 此 时 ， 用 户 界 面 仅 是 
实现 基本 思路 的 简单 界面 ， 真 实 的 系统 应 提供 更 为 精细 和 友好 的 用 户 界面 。 

日 志 ; ask litli. 

ups 为 真 吗 ? LE, F, AM, AA, BHI: Fa 

down_, HHS? (HK, F, KM, AA, PHI: 是 。 

down_s: 为 真 吗 ? LÆ, E, RB, AHA, PHI: 是 。 

回答 ; lith. 

系统 只 询问 用 户 可 以 回答 和 与 手头 任务 相关 的 问题 。 < 

比 起 回答 问题 ， 更 好 的 情况 是 用 户 所 指出 的 异常 的 事情 。 比 如 说 ， 病 人 可 能 无 法 确定 
所 有 问题 是 否 为 真 ， 但 可 指出 哪些 是 异常 的 。 例 如 ， 一 个 病人 进门 后 可 能 会 说 他 的 左 膝盖 
疼 ， 那 么 希望 用 户主 动 说 他 们 左 肘 或 者 身体 其 他 器 官 不 疼 是 一 种 不 合理 的 要 求 。 昌 然 传 感 
器 可 能 无 法 识别 出 该 场景 中 的 事物 ， 但 是 可 能 识别 场景 中 的 变化 。 

当 一 个 用 户 指出 每 件 事 都 存在 异常 时 ，Agent 通常 可 以 从 欠缺 的 知识 中 推断 出 一 些 情 
况 。 此 时 ， 常 态 可 被 重 载 为 以 异常 信息 为 内 容 的 默认 设置 (default)， 这 种 允许 默认 和 异常 
作为 默认 设置 的 思路 将 在 5. 5 节 详 细 论 述 。 
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5.3.3 知识 层 的 解释 


使 用 者 可 以 使 用 语义 在 知识 层 (knowledge level) 上 解释 和 调试 。 为 确保 系统 可 为 人 
用 ， 系 统 不 能 仅 给 出 答案 或 期 望 用 户 相信 它 。 假 设 存在 一 个 为 医生 提供 建议 的 系统 ， 医 生 
根据 诊断 进行 处 置 。 医 生 必 须 确信 诊断 是 适当 的 。 而 系统 必须 能 够 验证 它 的 答案 是 正确 
的 。 我 们 可 以 使 用 相同 的 特征 来 解释 系统 是 如 何 获得 结果 以 及 调试 知识 库 的 。 

可 以 使 用 三 种 互补 的 疑问 句 来 解释 相关 的 知识 : “how” 用 来 解 
释 如 何 得 出 某 一 答案 ; 2) 为 什么 的 问题 一 一 “why” 用 来 问 系 统 为 什么 问 用 户 这 个 问题 ; 
3) 为 什么 不 的 问题 一 一 “whynot" 用 来 问 某 一 原子 不 能 被 证 明 的 原因 。 

为 了 解释 答案 是 如 何 得 出 的 ， 当 系统 返回 答案 时 ， 用 户 可 以 询问 如何 做 到 ”的 how 
问题 ， 系 统 提 供用 于 推断 答案 的 确定 子 句 。 对 于 确定 子 名 主体 中 的 任何 原子 ， 用 户 可 以 向 
系统 询问 是 如 何 导 出 该 原子 的 。 

用 户 可 以 通过 问 “ 为 什么 ”的 why 问题 来 回应 被 问 的 问题 。 该 系统 将 推导 问题 的 规则 
作为 回复 。 然 后， 用户 可 以 继续 问 为 什么 该 规则 的 头 部 原子 可 被 证 明 。 用 户 通 过 系统 回复 
的 这 些 规则 遍历 验证 过 程 或 顶级 查询 的 部 分 验证 。 

“为 什么 不 ”的 whynot 问题 可 以 用 来 问 某 一 原子 不 能 被 证 明 的 原因 。 

1. 系统 如 何 来 证 明 某 一 目标 

第 一 个 解释 程序 允许 用 户 询问 “如 何 产生 ”的 how 问题 ， 即 “目标 是 如 何 导 出 的 ?”。 如 
Ke 可 被 证 明 ， 则 g 为 一 个 原子 子 句 或 者 存在 规则 : 

gea Aee Na 
使 得 每 一 个 w 都 可 被 证 明 。 

如 果 系 统 已 经 导出 g， 同时， 用 户 再 询问 “how”， 系 统 可 以 显示 证 明 g 的 子 句 。 如 果 
子 句 是 一 个 规则 ， 用 户 可 继续 询问 : 

how i 
系统 将 会 给 出 证 明 a; 的 规则 。 用 户 可 以 继续 使 用 how 问题 来 探讨 g 是 如 何 导出 的 。 

【 例 5-11) 在 例 5-5 公理 化 的 例子 中 ， 用 户 询问 ask lit lze J T M RII AE H 
证 明 ， 用 户 可 以 问 how 问题 。 该 系统 将 回复 

lit_l,< 

light_l. A 
live_l: A 
ok_ls 

以 上 为 证 明 litl: 的 顶层 规则 。 为 探究 如 何 证 明 live_l., FAP Ay A ial: 

how 2 
系统 返回 用 来 证 明 livel: 的 规则 ， 即 


live_ls<— 





live_w%, 
为 探究 如 何 证 明 Live_w,， 用 户 可 以 问 : 
how 1 
系统 呈现 规则 如 下 : 
live_w,< 
live_w; 人 


up_s3 
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为 了 探究 如 何 证 明子 句 主 体 中 的 第 一 个 原子 ， 用 户 可 以 问 : 
how 1 
第 一 个 原子 live_ws 可 通过 如 下 规则 证 明 : 
live_ rua < 
live_ws; 人 
ok_ch, 
为 了 探究 如 何 证 明子 句 主体 中 的 第 2 个 原子 ， 用 户 可 以 问 : 
how 2 
系统 会 报告 ok_ch 已 被 显 式 地 给 出 。 f 
请 注意 这 里 的 解释 仅 从 知识 层 给 出 ， 系 统 仅 回 复 被 告知 的 确定 子 句 。 用 户 不 必 知 道 证 
明 过 程 或 者 是 实际 的 计算 过 程 。 al 
2. 系统 问 问题 的 原因 
另 一 种 有 用 的 解释 是 某 一 问题 会 被 询问 的 原因 。 理 解 这 个 解释 是 非常 有 用 的 ， 因 为 ， 
。 我 们 希望 系统 是 智能 的 ， 那 么 了 解 问 题 被 问 的 原因 可 提高 用 户 对 系统 智能 运行 的 
信心 。 
。 交互 式 系统 复杂 性 的 主要 测量 是 通过 询问 用 户 问题 的 数量 决定 的 ， 而 如 果 想 最 小 
化 系统 的 复杂 性 ， 那 么 明确 问题 被 问 原 因 能 够 帮助 知识 库 设计 者 降低 设计 的 复 
杂 性 。 
。 一 个 不 相关 的 问题 通常 是 更 深层 次 问题 的 征兆 。 
。 通过 了 解 系统 做 事 的 原因 ， 可 使 用 户 从 系统 中 学 习 到 知识 。 这 种 学 习 类 似 于 新 手 
问 熟 手 做 事 的 原因 。 
当 系统 询 问 用 户 一 个 问题 (9) 时 ， 系 统 必须 有 一 个 主体 中 包含 了 9 的 命题 规则 。 用 户 
why 
这 就 好 像 阅 :“ 你 为 什么 问 我 这 个 问题 呢 ?” 答 案 是 主体 中 包含 g 的 简单 规则 。 如 果 用 
户 再 次 询问 ， 系 统 应 该 解释 为 什么 位 于 规则 头 部 会 被 询问 ， 等 等 。 继 续 询 问 为 什么 会 给 出 
到 达 顶 级 查询 的 目标 的 路 径 。 如 果 给 出 的 所 有 规则 均 是 合理 的 ， 则 证 明 系 统 对 用 户 的 问题 
是 合理 的 。 
【 例 5-121 考虑 例 5-10 的 对 话 。 本 例 中 对 话 表 明 如 何 反复 使 用 why 问题 来 寻找 顶级 
目标 。 下 面 的 对 话 用 来 询问 zz_2 ， 由 用 户 提出 查询 ， 并 回应 why: 
日 志 :ask lit_l, 
up_s 为 真 吗 ? 为 什么 ? 
up_s, 被 用 于 规则 live_w,<live_w; 人 up_si: 为 什么 ? 
live_w, 被 用 于 规则 live_uy<live_w, 人 zz 加 se: 为 什么 ? 
live_wo 被 用 于 规则 live_l,<live_uwy:H% tA? 
live_ 被 用 于 规则 lit_l,light_l, \live_l; 人 ok :为 什么 ? 
因为 这 是 你 问 我 的 问题 ! 4 
通常 ，how 问题 和 why 问题 一 起 使 用 ，how 问题 从 高 目标 移 向 低 目 标 ，why 问题 从 
低 目 标 移 向 高 目标 。 用 户 同时 使 用 这 两 类 问题 可 遍历 整个 证 明 树 (proof tree)。 在 证 明 树 
中 ， 节 点 是 原子 ， 每 个 节点 及 其 子 节点 对 应 知识 库 中 的 一 个 命题 子 句 。 
【 例 5-13] 考虑 先前 用 户 询问 why up_s 来 给 出 一 个 组 合 了 how 问题 和 why 问题 的 
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例子 。 系 统 提供 如 下 规则 : 
live_w,<-live_w; A up_s; 
这 就 意味 着 ， 问 up_s, 是 因为 系统 想 要 知道 iive_rw 并 且 用 这 个 规则 试 着 证 明 ups. 
用 户 虽然 认为 系统 想 知道 live_w 是 合理 的 ， 但 却 认为 询问 upa 是 不 合适 的 ， 原 因 在 
于 用 户 可 能 质疑 live_w, 是 否 会 成 功 。 在 本 例 中 ， 用 户 询问 live w 的 导出 原因 是 非常 有 
用 的 。 < 


5.3.4 知识 层 的 调试 


正如 在 其 他 软件 中 一 样 ， 知 识 库 可 能 会 有 错误 或 者 漏洞 。 领 域 专家 和 知识 工程 师 必须 
能 够 调试 知识 库 并 添加 知识 。 在 基于 知识 的 系统 中 ， 由 于 领域 专家 和 具有 领域 知识 的 用 户 
不 一 定 知道 或 不 想 知道 系统 内 部 是 如 何 工 作 的 ， 所 以 调试 变 得 很 困难 。 标 准 调 试 工具 ， 如 
基于 执行 的 轨迹 等 ， 均 是 无 效 的 ， 因 为 它们 需要 首先 知道 产生 答案 的 知识 机 制 。 本 节 将 说 
明 如 何 使 用 语义 的 思路 为 知识 库 提供 强 有 力 的 调试 工具 ， 即 无 论 是 谁 来 调试 系统 都 仅 需 知 
道 符号 的 含义 和 特定 原子 的 真 假 ， 而 这 类 知识 恰好 是 知识 领域 专家 和 用 户 所 具备 的 。 

知识 层 调 试 (knowledge-level debugging) 指 仅 参 考 符号 的 意义 而 发 现 知识 库 中 的 错误 
的 一 种 行为 。 建 立 可 被 领域 专家 使 用 的 知识 库 系 统 的 目标 之 一 是 知识 库 应 该 准确 地 符合 
该 知识 领域 。 例 如 ， 对 于 一 个 医学 知识 库 的 调试 ， 应 由 医学 领域 而 非 人 工 智能 专家 完 
成 。 同 样 ， 对 于 室内 布线 知识 库 的 调试 ， 应 参考 特定 的 房子 ， 而 非 基于 知识 库 的 内 部 系 
统 推 理 。 

基于 规则 的 系统 中 可 能 出 现 4 种 类 型 的 非 语 法 错误 : 

。 产生 不 正确 的 答案 ， 即 在 预期 的 解释 中 导出 的 原子 为 假 。 

。 某 些 答案 没有 产生 ， 即 本 应 成 功 证 明 却 被 证 明 失 败 ( 没 有 得 出 一 些 特定 的 真 原子 

命题 ) 。 

。 程序 陷入 死 循 环 。 

。 系统 询问 不 相关 的 问题 。 

以 下 是 调试 前 三 种 错误 的 检查 方法 ， 系 统 询问 不 相关 的 问题 可 以 通过 前 述 的 why 问 
题 进行 检查 。 

1. 不 正确 答案 

不 正确 答案 (incorrect answer) 是 指 在 预期 解释 中 已 经 被 证 明 为 假 的 答案 ， 也 叫 错 肯 定 
$R (false-positive errof) 。 如 果 使 用 不 正确 的 确定 子 句 ， 则 会 在 合理 性 证 明 中 产生 不 正确 
答案 。 

假设 无 论 是 领域 专家 还 是 用 户 调试 知识 库 时 ， 均 知道 语言 中 符号 的 预期 解释 ， 并 可 以 
判断 预期 解释 中 某 一 特定 命题 是 真 或 假 。 为 了 调试 不 正确 答案 ， 领 域 专家 无 需 知 道生 成 的 
答案 ， 只 需要 对 问题 回答 是 或 否 即 可 。 

假设 有 一 个 在 预期 解释 中 已 被 证 明 为 假 的 原子 g。 那 么 在 知识 库 中 必 有 一 个 用 于 证 明 
g 的 规则 gaa 人 … A a:， 使 得 下 面 两 种 情况 中 至 少 有 一 个 成 立 : 

。 在 预期 解释 中 a 中 有 一 个 为 假 ， 在 这 种 情况 下 ，g 可 以 通过 同样 的 方式 进行 调试 。 

。 在 预期 解释 中 a 中 所 有 原子 为 真 。 在 这 种 情况 下 ， 确 定子 句 g<-al Ae 人 A 人 ai 一定 

是 不 正确 的 。 
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基于 上 述 情况 给 出 图 5-6 中 的 算法 ， 该 算法 在 预期 解释 所 导出 原子 命题 为 假 时 ， 可 用 
于 调试 知识 库 。 算 法 仅 需 调试 人 员 回 . 
答 是 或 否 的 问题 即 可 。 1; procedure Debug(g,KB) 

该 过 程 也 可 通过 用 户 提 出 “how” a gy ETEA 
问题 来 进行 。 给 定 一 个 在 预期 解释 中 | a gy NE, KB h a 而 且 & 在 预期 解释 中 为 候 
为 假 的 原子 g 的 证 明 ， 用 户 可 询问 该 5: Output 
PAF AHO fo BEE A. fe OMETA eea An Aa EKB 
用 于 证 明 8 的 确定 子 句 。 如 果子 句 是 8; for each a, do; 

一 条 规则 ， 用 户 可 以 询问 规则 主体 中 ea 

在 预期 解释 中 为 假 的 原子 “how” 问 题 ， | 1 返回 Dedunca, ,KB) 

这 将 返回 证 明 该 原子 的 规则 。 用 户 可 12; return gea, A ~ Aa, 

以 重复 此 操作 ， 直 到 子 句 主体 中 的 所 
有 元 素 均 为 真 (或 者 元 素 为 空 )， 可 判 
断 这 个 子 句 为 不 正确 的 确定 子 句 。 上 述 调试 方法 假设 用 户 只 需 确定 预期 解释 中 原子 是 否 为 
真 ， 而 无 需 知道 所 使 用 的 证 明 程 序 。 

【 例 5-14】 考虑 例 5-5 提 到 的 电气 领域 ， 该 程序 存在 一 个 漏洞 。 假 设 该 领域 专家 或 用 
户 无 意 中 说 ，wi 与 w 是 否 连接 取决 于 s 的 状态 ， 而 不 是 s 的 状态 ( 见 图 1-8)。 因 此 ， 知 
识 包括 以 下 不 正确 的 规则 

live_wi<—live_vw: Nup_ss 

其 他 公理 与 例 5-5 相同 。 给 定 公理 集 ， 可 以 导出 在 预期 解释 中 为 假 的 原子 lich. & 
虑 用 户 检 测 到 该 不 正确 的 答案 时 ， 如 何 发 现 与 之 相关 不 正确 的 确定 子 句 ? 

在 给 定 的 预期 解释 中 ，ilit_L 为 假 ， 用 户 询问 如 何 得 出 ， 系 统 给 出 规则 ;: 

lit li<—light_ li A live_l, \ ok_k, 

再 检查 该 规则 主体 内 的 原子 。 在 预期 解释 中 light_l, 和 ok_l, AH, B live_h Ak. 
所 以 继续 询问 ， 

how 2 
则 系统 展示 规则 : 

live_l;,<live_wy 

在 预期 解释 中 /ive_r 为 假 ， 因 此 继续 询问 : 

how 1 
系统 展示 规则 : 

live_w)~-live_w; \up_sz 

在 预期 解释 中 live_w 为 假 ， 因 此 继续 询问 : 

how 1 
系统 展示 规则 : 

live_w,<-live_w; N up_s f 

在 预期 解释 中 这 两 种 元 素 都 为 真 ， 所 以 这 个 规则 是 漏洞 规则 。 < 

用 户 或 领域 专家 仅 需 要 知道 知识 库 的 预期 解释 和 使 用 “how” 问 句 的 规则 ， 就 可 找到 存 
在 漏洞 的 确定 子 句 ， 而 不 必 知道 系 统 内 部 运作 方式 或 证 明 过 程 。 

2. 缺失 的 答案 

当 没 有 产生 预期 的 答案 时 ， 就 产生 了 第 二 种 类 型 的 错误 ， 即 本 应 产生 答案 ,但 没有 产 
生 该 答案 时 就 是 缺失 的 答案 。 在 一 个 领域 中 ， 虽 然 目标 g 为 真 ， 但 是 根据 知识 库 的 推理 却 














图 5-6 调试 不 正确 答案 的 算法 
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没有 产生 真 的 结果 ， 被 称 为 错 和 否定 错误 (false-negative error ) 。 

在 这 种 情况 下 ， 由 于 没有 对 g 的 证 明 ， 前 面 的 算法 不 起 作用 。 而 我 们 必须 找 出 g 未 被 
证 明 的 原因 。 

仅 当 知识 库 不 存在 某 些 确定 子 句 时 ， 不 会 产生 相应 的 答案 。 由 于 领域 专家 知道 预期 解 
释 中 的 符号 含义 以 及 哪些 查询 会 成 功 ( 即 在 预期 解释 中 哪些 为 真 )， 因 此 他 们 可 以 对 缺失 的 
答案 进行 调试 。 给 定 某 一 本 应 被 证 明 的 原子 命题 ， 图 5-7 展示 了 找到 缺失 的 确定 子 句 的 
算法 。 





l; procedure DebugMissing(g, KB) 

2; Inputs 

3: KB 为 知识 库 

4; g 为 一 个 原子 :KB bg hs 在 预期 解释 中 为 真 

5: Output 

6: 缺失 的 子 句 中 的 原子 

7: ”这 存在 确定 子 句 ga A … Aa,E KB 使 得 所 有 的 a 在 预期 解释 中 都 为 真 ,then 
8: select 不 能 被 证 明 的 a, 

9; DebugMissing(a;.KB) 

10: else 

ll: return g 








5-7 缺失 答案 的 调试 算法 


假设 g 是 一 个 本 应 被 证 明 而 实际 上 却 没 有 被 证 明 的 原子 。 由 于 g 未 被 证 明 ， 则 以 g 为 
头 部 的 所 有 确定 子 句 的 主体 都 将 失败 。 
。 BRAK g 的 确定 子 句 集合 中 存在 一 条 子 句 应 该 被 证 明 ， 但 是 却 没 得 到 证 明 ; 这 
意味 着 在 子 句 主体 中 所 有 的 原子 在 预期 解释 中 都 必须 为 真 。 由 于 子 句 主体 证 明 失 
败 ， 子 句 主体 中 必 有 一 原子 证 明 失 败 ， 但 该 原子 在 预期 解释 中 为 真 ， 故 可 使 用 递 
归 的 方式 进行 调试 。 
。 否则 ， 不 存在 证 明 g 的 确定 子 句 ， 则 用 户 必 须 为 g 添加 一 个 确定 子 句 。 
【 例 5-15] 在 例 5-5 的 公理 化 电气 领域 中 ， 假 设 图 1-8 的 s 是 关闭 的 。 由 于 缺少 5 X 
闭 的 确定 子 句 ， 例 5-5 的 公理 化 中 Litl 本 应 被 成 功 证 明 但 却 证 明 失败 。 下 面 来 找到 其 中 
的 漏洞 。 
lith 失败 ， 找 到 所 有 头 部 中 含有 lith 的 规则 ， 其 中 一 个 规则 如 下 : 
lit_l,<light_l, A live_l, A ok_l, 
用 户 验 证 命题 中 所 有 的 元 素 都 为 真 。 主 要 表现 为 ，Ligjht_A 和 ok_l, 都 可 以 被 导出 并 
验证 ,但 livel 不 可 以 ， 需 要 对 其 进行 调试 。 考 虑 以 lice_2 为 头 部 的 一 个 规则 : 
live_l, <live_wy 
原子 live_w, 不 能 被 证 明 ， 但 用 户 在 预期 解释 中 认定 其 为 真 ， 故 可 以 发 现 live_w 的 
规则 : 
live_w,~<-live_w, Nup_s 
live_vwo<—live_ tw: MN down_ ss 
用 户 发 现 ， 第 二 条 规则 的 主体 为 真 。 主 要 表现 为 ， 对 于 live_w. 的 证 明 已 存在 ， 但 是 
缺乏 对 于 down_s 的 确定 子 句 ， 因 此 返回 该 原子 。 修 正方 法 是 为 该 原子 添加 适当 的 原子 命 
题 或 规则 。 < 
3. 死 循环 
如 果 证 明 中 有 一 个 原子 a 以 自身 作为 子 目 标 ， 那 么 在 自 顶 向 下 的 推导 中 会 出 现 死 循 环 
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(假设 子 目 标 是 可 传递 的 ， 一 个 子 目标 的 子 目 标 仍 是 其 子 目标 )。 因 此 ， 当 知识 库 有 环 时 ， 
就 会 存在 死 循 环 。 如果 存在 原子 使 得 确定 子 句 的 序列 为 如 下 的 形式 ， 则 称 知识 库 是 有 环 
(cyclic) 的 : 


[2 2 eh dd 


GR ”一 0， 则 存在 一 个 确定 子 句 ， 其 头 部 和 主体 都 为 a。) 

将 原子 赋值 成 自然 数 ( 非 负 整数 )， 如 果 确 定子 名 主体 中 的 所 有 原子 都 被 标记 成 比 其 头 
部 中 的 原子 更 小 的 数 ， 则 知识 库 是 无 环 (acyclic) 的 。 本 章 前 面 提 到 的 知识 库 都 是 无 环 的 。 
在 无 环 的 知识 库 中 不 存在 死 循 环 。 

为 了 检测 知识 库 中 是 否 有 环 ， 可 以 修改 自 项 向 下 的 证 明 程 序 ， 对 每 一 个 原子 的 所 有 父 
原子 (ancestor) 集 进行 标记 。 在 图 5-4 的 程序 中 ,集合 A 包括 了 原子 和 其 父 原子 集 。 

将 每 一 个 原子 的 父 原子 集 都 初始 化 为 空 。 当 使 用 下 面 的 规则 

axa; A+ Na, 
来 证 明 a 时 ，a; 的 父 原子 集 为 a Ma 的 父 原子 集 的 并 集 ， 即 

ancestors(a;)=ancestors(a) U {a} 

如 果 一 个 原子 在 其 父 原 子 集 中 ， 则 说 明知 识 库 有 环 ， 证 明 失 败 。 值 得 注意 的 是 ， 由 于 
每 一 个 原子 都 有 自己 的 父 原子 集 ， 因 此 ， 这 种 循环 检查 相对 于 之 前 的 版 本 更 加 精简 。 

有 环 知识 库 通常 是 存在 漏洞 的 一 个 标志 。 因 此 在 编写 知识 库 时 ， 通 过 每 次 迭代 所 减少 
的 数值 来 确定 知识 库 中 无 环 的 方法 是 非常 有 用 的 。 例 如 ， 在 电气 领域 中 ， 距 离 房 子 外 面 的 
步 数 在 每 次 循环 中 是 减少 的 。 规 则 且 显 式 地 使 用 熟知 排序 可 以 用 来 预防 死 循 环 ， 正 如 在 传 
统 语言 的 编程 中 必须 小 心 编码 才能 防止 死 循环 一 样 。 

注意 ， 自 底 向 上 的 验证 过 程 不 会 陷入 死 循 环 ， 因 为 其 只 选择 头 部 没有 被 导出 的 规则 。 


5.4 反 证 法 验证 


如 果 人 允许 规则 给 出 矛盾 ， 则 可 在 反 证 法 证 明 中 使 用 确定 子 句 。 例 如 ， 在 电气 布线 领域 
中 ， 指 出 某 些 预测 非 真 是 很 有 用 的 ， 例 如 light_l2 is on 非 真 。 该 方法 使 得 诊断 推导 可 以 
推理 出 哪些 开关 、 灯 或 者 断路 器 是 损坏 的 。 


5.4.1 Hom FA 


确定 子 句 不 允许 存在 矛盾 表述 。 然 而 ， 我 们 可 以 使 用 反 证 法 来 验证 语句 的 简单 扩展 。 

完整 性 约束 (Cintegrity constraint) 是 如 下 形式 的 子 句 : 

falsesa, A + Aa 
其 中 a, 是 原子 ，false 是 一 个 在 所 有 的 解释 中 都 为 假 的 特殊 原子 。 

Horn 子 名 (Horn clause) 既 可 以 是 一 个 确定 子 句 ， 也 可 以 是 一 个 完整 性 约束 子 句 。 这 
MAB. Horn 子 句 头 部 可 以 为 false 或 者 是 一 个 一 般 原 子 。 

在 一 个 知识 库 的 所 有 模型 中 完整 性 约束 允许 系统 验证 某 些 原子 的 合 取 为 假 ， 即 验证 原 
子 否定 的 析 取 为 真 。 回 想 ~-p 是 p 的 否定 (negation)， 当 p 在 某 个 解释 中 为 假 的 时 候 p 为 
A, WA PVgq 是 p Sq 的 析 取 (disjunction)， 当 轧 为 真 或 g 为 真 或 二 者 都 为 真 时 ，p Vg 
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为 真 。 完 整 性 约束 falsesa; A+ Ka, BH ESRF a V Voar. 

Horn 子 句 知识 库 暗 含 原子 的 否定 ， 如 例 5-16 所 示 。 

【 例 5-16】 考虑 知识 库 KB: 

falsesa Ab 

b=c 

E KB, 的 所 有 模型 中 原子 c 都 为 假 。 如 果 c 在 KB 的 模型 了 中 为 真 ， 那么 a 和 2 在 了 
中 都 将 是 真 (否则 了 就 不 是 KKB; 的 一 个 模型 )。 因 为 在 I 中 faise 是 假 的 ， 而 a Mb EI p 
是 真 的 ， 在 IT 中 的 第 一 个 子 句 就 是 假 的 。 这 与 1 为 KB 的 一 个 模型 矛盾 。 因 而 < 在 开 B， 
的 所 有 模型 中 都 是 假 的 。 

这 个 可 以 表示 为 : 

KB, H^c 

这 意味 着 ,在 KB, 所 有 的 模型 中 mc 都 为 真 ， 所 以 c EKB 的 所 有 模型 中 都 为 假 。 < 

尽管 Horn 子 句 语言 中 不 允许 将 析 取 和 和 否定 作为 输入 ， 但 是 原子 否定 的 析 取 可 以 被 推 
导出 来 ， 如 例 5-17 所 示 。 

【 例 5-17] 考虑 知识 库 KB: 


falsesa Ab 


bee 

E KB: 的 每 一 个 模型 中 ，c 或 d 之 一 为 假 。 如 果 它 们 在 KB: 的 模型 I 中 都 是 真 的 ， 
那么 a 和 6 在 I 中 也 将 是 真 的 。 结 果 就 是 了 中 的 第 一 个 子 句 是 假 的 。 这 与 1 是 KB, 的 模型 
FE. WU., Re 之 一 在 KB 中 的 每 一 个 模型 都 将 是 假 的 。 因 而 

KB, 77d 

KB, 7c V me < 

如 果子 句 集合 没有 模型 ， 则 其 为 不 可 满足 的 (Cunsatisfiable) 。 如 果 可 以 通过 验证 程序 
从 子 句 中 推导 出 asze， 那 么 子 句 集合 则 被 证 明 是 不 一 致 的 (inconsistent)。 如 果 验 证 程序 
是 合理 并 且 完 整 的 ， 则 当 且 仅 当 子 句 集合 是 不 可 满足 的 情况 下 ， 子 句 集合 是 不 一 致 的 。 

通常 能 够 为 确定 子 句 集合 找到 一 个 模型 。 对 于 任何 一 个 确定 子 句 集合 ， 所 有 的 原子 都 
为 真 的 解释 就 是 其 一 个 模型 。 因 此 ， 确 定子 句 知识 库 总 是 可 满足 的 。 然 而 ，Heorn 子 句 的 
集合 可 能 是 不 可 满足 的 。 

【 例 5-18〗 子 句 集合 {a，false<-a}) 是 不 可 满足 的 。 因 而 没有 解释 能 够 使 两 个 子 句 同 
时 满足 。 所 以 a 和 false<-a 在 任意 解释 中 都 不 能 同时 为 真 。 < 

通过 使 用 false 作为 查询 ， 自 项 向 下 和 自 底 向 上 的 过 程 都 能 够 证 明 不 一 致 性 。 这 就 意 
味 着 ， 当 且 仅 当 false 可 以 被 推导 出 来 时 ，Horn 子 句 才 是 一 致 的 。 


5.4.2 假说 与 冲突 


从 矛盾 中 进行 推理 是 一 种 非常 有 效 的 方法 。 对 于 一 些 行为 ， 知 道 某 些 假设 的 组 合 是 不 
一 致 的 这 很 奏效 。 例 如 ， 得 知 计划 中 Agent 想 要 完成 的 行动 的 组 合 是 不 可 实现 的 。 在 设计 
中 知道 一 些 组 件 的 组 合 无 法 协同 工作 也 是 有 实用 价值 的 。 

在 诊断 应 用 中 ， 通 过 对 系统 的 观察 ， 可 以 证 明 某 些 组 件 正 常 工作 时 存在 矛盾 。 假 设 我 
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们 考虑 某 一 个 系统 ， 我 们 知道 其 应 当 如 何 工作 ， 而 且 我 们 也 有 一 些 对 该 系统 工作 的 观察 结 
果 。 如 果 系 统 没 有 按照 其 规范 进行 工作 ， 则 诊断 Agent 必须 确定 是 哪个 组 件 出 现 了 错误 。 

为 了 完成 这 项 任务 ， 做 出 可 被 证 明 为 假 的 假设 是 很 有 必要 的 。 

假说 (assumable) 是 在 反 证 法 验证 过 程 中 可 以 被 假设 的 原子 。 反 证 法 验证 可 以 从 假说 
否定 的 析 取 得 到 。 

通过 Horn 子 句 知识 库 和 明确 的 假说 ， 如 果 系 统 可 以 从 假设 中 验证 矛盾 的 存在 ， 那 么 
系统 能 提取 到 不 可 以 全 部 为 真 的 假设 组 合 。 

.在 确定 子 句 知识 库 中 ， 可 以 使 用 查询 来 询问 某 命题 是 否 是 该 知识 库 的 结果 。 给 定 一 个 
查询 ， 系 统 可 对 该 查询 构建 验证 。 系 统 试图 通过 反 证 法 验证 false。 作 为 查询 答案 的 一 部 
分 ， 用 户 必须 指出 什么 是 被 允许 的 。 

如 果 KB 是 Horn 子 句 的 集合 ，KB 的 冲突 (conflict) 是 一 个 假说 集合 ， 该 集合 对 给 定 
KB 蕴含 false 。 即 当 以 下 条 件 成 立时 ， 称 C= 二 {ci ，…，c,} 是 对 于 KB 的 一 个 冲突 : 

KBU {c; + sc, } | false 

在 这 种 情况 下 ， 答 案 就 为 : 

KB 上 -ce V = V ~c, 

最 小 冲突 (minimal conflict) 是 无 严格 子 集 也 为 冲突 的 冲突 。 

【 例 5-19] 在 例 5-17 中 ， 如 果 {c，d，e，f，g，h} 是 一 个 假说 集合 ， 那 么 {c，d} 和 
{c，e} 是 对 于 KB, 的 最 小 冲突 ; {c, d, e, 4h}) 也 是 一 个 冲突 ,但 不 是 最 小 冲突 。 < 

在 接 下 来 的 例子 中 ， 通 过 假说 关键 字 来 指明 假说 ， 这 些 关键 字 是 一 个 或 用 逗号 间隔 的 
多 个 假说 原子 。 


5.4.3 ”基于 一 致 性 的 诊断 


对 哪些 在 正常 工作 做 出 假设 ， 推 导出 哪些 组 件 工作 异常 ， 这 是 基于 一 致 性 的 诊断 
(consistency-based diagnosis) 的 基础 。 假 设 缺 陷 (fault) 是 指 在 系统 中 出 现 了 错误 ， 则 通过 
系统 的 模型 和 观察 基于 一 致 性 的 诊断 可 判断 出 可 能 存在 的 缺陷 。 通 过 不 存在 缺陷 的 假说 ， 
可 以 使 用 冲突 来 验证 系统 中 存在 的 错误 。 

【 例 5-20] 考虑 图 5-2 绘制 、 例 5-5 表述 的 房屋 布线 的 例子 。 适 用 于 基于 一 致 性 诊断 
的 背景 知识 库 在 图 5-8 中 给 出 。 在 子 句 中 加 入 一 般 性 假设 ， 使 组 件 工作 的 假设 变 得 明确 。 
并 且 增 加 以 下 条 件 : 开关 、 电 路 中 断 器 和 灯 都 如 预期 一 样 正 常 工 作 。 没 有 对 应 ok 原子 的 
子 句 ， 但 是 可 以 做 出 这 样 的 假说 。 

用 户 可 以 观察 开关 的 状态 和 灯 是 明 或 暗 。 

一 攻 灯 不 可 能 同时 是 明和 暗 两 种 状态 。 该 知识 按 下 列 完整 性 约束 表示 : 

false<dark_l, A lit_l, 2 

false«-dark_l, A lit_l 

假设 用 户 观 察 到 所 有 三 个 开关 都 置 上 ， 而 且 hL AL 都 是 暗 的 。 那 么 用 以 下 的 原子 语 
名 代表 : 

up_s, 

up_Se 

up_sa 

dark_l, 

dark_l, 


第 5 章 命题 和 推理 125 


light_l, 

light_l, 
live_outside 
live_l,<-live_wy 


live_w,<-live_w, \up_s, 人 ok ss 


live_wy+-live_w, 人 doron sz 人 ok sr 


live_w,+live_w; \up_s,; 人 op 3i 
live_w, + live_w, \ down_s, \ ok_s, 
live_l,«live_wi 

live_w,+live_wy; \ up_s; A ok_ss 
live_p,~live_w, 

live_w,<—live_ws, A ok_cb, 
live_p,~live_u, 

live_w,~live_w, A ok_cb, 
live_w,;~<-live_outside 
lit_l;+light_l, A live_l, A okl 
lit_l,<light_l, A live lz A ok_l: 
false+-dark_l, A lit_l, 
falsex-dark_l, N lit_l; 

assumable ok_ch, ,ok_cbh; ,ok_sy sok_s: ,ok_s;,ok_l, ,ok_ly 





图 5-8 例 5-20 的 知识 


给 定 图 5-8 所 示 的 知识 和 观察 值 ， 有 两 个 最 小 冲突 存在 ， 即 

{ok_ca yok sisok sz sok_li } #l{ ok_ch, ,ok_sy ,ok_lz } 

因此 有 

KB -70k_ch, V `ok_sı V “ok_s: V tok_h, 

KB 7o0k_ch, V mok_ ss V tok_l, 

这 意味 着 ch. 1. s 或 者 六 中 至 少 有 一 个 组 件 必须 是 不 正常 的 ， MA ch, s 或 者 ls 
中 至 少 有 一 个 组 件 是 不 正常 的 。 < 

给 定 了 所 有 冲突 的 集合 ， 用 户 可 以 通过 系统 诊断 判断 可 能 的 错误 。 然 而 ， 对 于 给 定 的 
冲突 集合 ， 如 果 所 有 的 冲突 都 可 以 通过 几 个 缺陷 解释 ， 那么 常常 很 难 判 定 到 底 哪 里 出 现 了 
错误 。 通 常用 户 想 要 知道 是 否 所 有 冲突 都 可 以 通过 一 个 或 者 两 个 缺陷 来 解释 。 

给 定 一 个 冲突 集合 ， 基 于 一 致 性 的 诊断 是 一 个 假说 的 集合 ， 该 集合 至 省 有 每 个 冲突 中 
的 一 个 元 素 。 最 小 诊断 (minimal diagnosis) 是 没有 其 子 集 也 为 诊断 的 诊断 。 对 于 其 中 一 个 
诊断 ， 在 建 模 的 过 程 中 它 的 所 有 元 素 必 须 为 假 。 

【 例 5-21] 让 我 们 继续 考虑 例 5-20。 由 于 两 个 冲突 的 否定 的 析 取 是 子 句 的 逻辑 结果 ， 
则 以 下 合 取 

(ok ch V -okR si V tok_s2 V tok_l,) A ( 70k_cb; Vmok ss V “ok_l:) 
是 遵循 知识 库 的 。 这 种 析 取 的 合 取 可 以 分 配 成 析 取 范式 (Disjunctive Normal Form, 
DNF) ， 否 定 原子 的 合 取 的 析 取 为 : 

ok_cbi V 

(Tok_ si A Tok_ss)V (Tok 5 A “ok_l:) V 

(Tok so A Tok_s3)V (mok ss A Tok Ls)V 

(Tok li A Tok_s3)V (mok lA “ok_lz) 

因此 ， 或 者 是 ch 是 坏 的 或 者 6 个 双重 错误 中 至 少 存在 一 个 。 

分 离 的 命题 共同 对 应 了 7 个 最 小 诊断 : {ok_cbi}, {ok_s1， ok_s3}， {ok_s1, ok_ls}， 
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{ok_sz, ok_ss}, {ok_s,， ok_lz}, {ok_l1，ok_s3)，{ok_l1，ok_ls}。 系 统 已 经 被 证 明 这 些 
组 合 中 至 少 有 一 个 一 定 有 错误 。 a 


5.4.4 通过 假设 和 Horn 子 句 推理 


为 了 在 Horn 子 句 知识 库 中 寻找 冲突 ， 本 节 将 介绍 自 底 向 上 和 的 自 项 向 下 实现 方法 。 

1. 自 底 向 上 的 实现 

自 底 向 上 的 实现 是 在 5. 2. 2 节 中 确定 子 句 的 自 底 向 上 算法 的 增强 版 。 

对 于 该 算法 的 修改 为 : 结论 是 成 对 的 
(a, A); 其 中 a 是 原子 ， A 是 一 个 假说 集 1; ge La E 
合 ， 该 集合 说 明了 a 在 Horn 子 句 知识 库 : KB:Horn 子 句 集合 
KB 的 上 下 文 环境 中 。 和 Assumables; 可 以 被 假设 的 原子 集合 

最 初 ， 结 论 集 合 C 是 {(a，{a}): a 是 假 
说 }。 子 句 可 以 被 用 来 推导 新 的 结论 。 如 果 有 


AFA hm No Nba BERFE—T OH, | SCR TERRE RNAS 
都 存在 一 些 A,， 使 得 (6b，A:;，) EC, W ; repeat i i 

th, AU UA DT AR Aa C 中 。 注 意 ， : select KB HHFH hab, 人 … Aba” E 
这 包含 了 原子 子 句 的 情况 ， 当 m 一 0 时 ， | Ree EOE UAL 
chy {}> PRANAB C 中 。 图 5-9 对 于 这 个 算法 给 : C= CU (th, A} 

出 了 伪 代 码 。 ， mti 没有 更 多 可 能 的 选择 





return {A< false, A) €C} 


4 (false, AJ ÆR, 假设 A 形成 一 个 
冲突 。 图 5-9 计算 冲突 自 底 向 上 验证 程序 

我 们 使 用 修剪 假设 超 集 的 方法 对 该 程序 进行 细 化 。 如 果 ia，A1i) 和 (a，A;) 在 C 中， 
且 AICA:， 那 么 4a，As: 可 以 从 C 中 移 除 或 不 加 入 到 C 中 。 没 有 任何 理由 需要 使 用 额外 
的 假设 来 说 明 ao 同样 ， 如 果 ( false, Al) 和 (a， Az ) 在 CH, HASA, 那么 (a，A;) 可 
以 从 CHER, BA A 和 任何 超 集 ( 包 括 A;) 都 与 给 定子 句 了 矛盾 ， 因 此 从 这 样 的 假说 集合 
中 学 习 不 到 任何 知识 。 

【 例 5-22】 考虑 图 5-8 的 公理 化 形式 ， 讨 论 例 5-20。 

首先 ， 在 图 5-9 算法 中 ，C 有 以 下 值 : 

{(ok_l, »{ok_l, }) ok Ls{ok la}), (ok sis{ok si1)), ok se, {ok sa}), (ok ss,{ok ss}), Cok_ ch,{ok_ ch}), 
(ok_ch, , {ok_cbs })} 

下 面 展 示 了 在 一 个 选择 序列 前 提 下 加 入 到 C 的 序列 值 ; 

(live_outside, {}) 

(connected to_ws; ,outside, {} > 

(live_ws ,{}> 

(connected to_wy ,ws »{ok_ch, }) 

(live_w; + {ok_ch, }> 

(up_ss+{}) 

(connected _to_w, » Ws »{ok_s3}) 

(live_wy, »{ok_ch, ,ok_s3}) 

<connected_to_lz,wi+\}> 

(live_ls» {ok_cb; ,ok_s3}) 

(light_l2 »{}> 
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(lit_l, (ok ci ,ok_s3 ,ok ls}) 

(dark_l: ,{}) 

{ false, {ok_cb; ,ok_s; ,ok_lz}) 
Ae, SAE : 

sok_ch, V “ok_s; V ok ls 
其 他 冲突 可 以 通过 后 续 的 算法 找到 。 

2. 自 顶 向 下 的 实现 

自 项 向 下 的 实现 方法 与 图 5-4 注释 描述 的 自 项 向 下 确定 子 句 类 似 ， 除 了 顶层 目标 是 为 
了 证 明 . false， 而 且 验 证 中 所 过 到 的 假说 不 会 被 证 明 ， 但 是 会 被 收集 起 来 。 

图 5-10 给 出 了 寻找 冲突 的 算法 。 


l: non-deterministic procedure con flictTD(KB,Assumables) 


不 同 的 选择 可 能 会 导致 找到 不 同 的 冲 : ‘Inputs 
突 。 如 果 没 有 选择 可 用 ， 则 算法 失败 。 : ee te eas 
【 例 5-23) 考虑 例 5-20 中 所 示 的 l E = 
电路 。 对 于 一 个 导致 冲突 的 选择 和 决 
策 序列 ， 以 下 是 G 的 值 的 序列 : a 
{ false} : Gt={ false} 
{dark_l, ,lit_l, } repeat 
(lit ly} select G Pf) a, sa; ¢ Assumables 
inne : choose KB 中 以 a, 为 头 部 的 子 句 C 
{light_l, ,live_l, sokl} : 以 在 C 的 主体 中 的 原子 替代 G 中 的 a， 
{ live_l, ,ok_1; } 1 until GOAssumables 


{ live_w»y »ok_l, } return G 


{live_m »up_s vok_s okt) 图 5-10 ADU F PAR MPIC Horn 子 句 解释 程序 
{ live_wy ,up_s, ,ok_s; sup_sz »ok_S2 ,ok_l; } 





{live_ws rok_cb ,up_s: ,ok_s, ,up_s» rok sz .ok_l; } 

{ live_outside, ok_ch, ,up_s; sok_sı »up_s2 ,rok sz ,ok_l, } 

{ok_cbh, yup_si ,ok_s; sup_sz»ok_sz voR_1,} 

{ok_ch, sok_si sup_sz rok_s2 »ok_l; } 

{ok_ch, ,ok_s, sok_sz ,ok_1, } 

集合 {ok_cb! ，ok_s1，ok_s;，ok_41} 作 为 一 个 冲突 返回 。 选 择 使 用 不 同 的 子 句 将 会 导 
致 不 同 的 结果 。 本 


5.5 完备 知识 假设 


当 一 个 数据 库 中 任何 没有 被 阐明 的 都 为 假 ， 从 意义 上 讲 这 个 数据 库 往 往 是 完备 的 。 

【 例 5-24] 你 可 能 希望 用 户 指出 哪些 开关 是 置 上 的 ， 哪 些 断 路 器 是 坏 掉 的 ， 通 过 上 述 
系统 可 以 推断 出 那些 没有 被 说 明 为 置 上 的 开关 是 置 下 的 ， 没 有 被 说 明 为 坏 掉 的 断路 器 是 正 
常 的 。 因 此 ， 置 下 是 开关 的 默认 设置 ， 状 态 良好 是 断路 器 的 默认 设置 。 对 于 用 户 来 说 ， 相 
对 于 指定 哪些 开关 是 置 下 的 和 哪些 断路 器 状态 良好 等 看 似 多 余 的 信息 来 说 ， 使 用 默认 设置 
可 以 很 方便 地 进行 交互 。 为 了 使 用 这 样 的 默认 设置 进行 推理 ， 必 须 假 设 一 个 Agent 拥有 完 
全 知识 ， 开 关 的 状态 没有 被 指出 因为 它 的 状态 是 置 下 的 ， 而 不 是 因为 Agent 不 知道 它 是 置 
下 还 是 置 上 的 。 < 

在 之 前 给 出 的 确定 子 句 逻辑 中 ， 不 允许 从 缺失 的 知识 或 者 失败 的 验证 中 得 出 结论 的 推 
导 。 该 逻辑 没有 假设 知识 是 完备 的 。 特 别 是 一 个 原子 的 否定 不 可 能 作为 确定 子 句 知识 库 的 


[191| 


193 


128 ”第 二 部 分 表达 和 推理 


一 个 逻辑 结果 。 

完备 知识 假设 (complete knowledge assumption) 是 假设 对 于 任何 原子 ， 当 该 原子 为 真 
时 ， 拥 有 该 原子 作为 头 部 的 子 句 覆盖 了 所 有 的 情况 。 基 于 这 种 假设 ， 如 果 Agent 不 能 确定 
一 个 原子 为 真 则 该 原子 为 假 。 这 也 被 称 为 封闭 世界 假设 (closed-world assumption), i HJ 
以 对 比 于 开放 世界 假设 (open-world assumption) ， 开 放 世 界 假设 使 Agent 一 无 所 知 ， 所 以 
无 法 从 缺失 的 数据 库 中 得 到 任何 结论 。 封闭 世界 假设 需要 Agent 知道 该 世界 的 所 有 相关 
知识 。 

一 个 原子 存在 规则 时 ， 假 设 则 是 每 个 原子 的 规则 覆盖 了 原子 为 真 的 所 有 情况 。 特 别 


a -h 


a<b, 
其 中 原子 子 句 a 表示 规则 a 一 true。 完 备 知 识 假设 意味 着 如 果 在 某 些 解释 中 a 为 真 ， 那么 
必 有 一 个 b: 在 该 解释 中 一 定 为 真 ， 也 就 是 说 ， 

a—>b, V "Vb, 

由 于 定义 a 的 子 句 等 价 于 

a<-b; Ve V bn 
该 子 句 的 意义 可 以 视 为 联合 上 述 两 个 命题 ， 即 等 价 于 

a+b Ve V ba 
其 中 一 读 作 * 当 且 仅 当 ”( 见 图 5-1)。 对 于 a 这 种 等 效 被 称 为 子 句 的 Clark 完备 化 (Clark”s 
completion) 。 一 个 知识 库 的 Clark 完备 化 是 对 于 在 该 知识 库 中 每 一 个 原子 的 完备 。 

Clark 完备 化 意味 着 如 果 对 于 一 个 原子 a 没有 规则 ， 那 么 该 原子 的 完备 是 as false, 
这 意味 着 a 为 假 。 

【 例 5-25】 考虑 例 5-5 中 的 如 下 子 句 : 

down_ 5s, 

up_sz 

live_l, <live_wyo 

live_w 4 live_w Aup_sz 

Tive_wa<—live_w 人 corom sz 

live_w,<live_w; \up_s 
假设 仅 有 以 原子 作为 头 部 的 子 句 ， 且 没有 子 句 up_s: 和 down_s, 。 这 些 原 子 的 完备 集 是 

down_s; true 

up_s,+> false 

up_s.<true 

down_s,«> false 

live_l, > live_wy 

live_wy +> (live_w; \ up_s.) V Clive_w, A down_s:) 

live_w,++live_w; \ up_s; 

RR T up_s, AR, H live w AK. < 

通过 完备 性 ， 系 统 可 以 得 出 否定 的 结论 ， 且 扩展 语言 允许 子 名 主体 中 的 存在 否定 是 很 
有 用 的 。 文 字 (literal) 既 可 以 是 一 个 原子 也 可 以 是 原子 的 否定 。 一 个 确定 子 句 的 定义 可 以 
被 扩展 ， 该 扩展 允许 主体 中 存在 文字 而 不 仅仅 是 原子 。 在 完全 知识 假设 中 ， 记 原子 a 的 否 
定 为 ~a， 以 此 来 区 别 它 与 并 不 假设 完备 性 的 传统 否定 。 这 种 否定 经 常 被 称 为 否定 即 失 败 
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Cnegation as failure) 。 

基于 否定 即 失败 ， 如 果 KB' Kg, WEH g 是 知识 库 KB 的 结果 ， 其 中 KB' 是 KB 的 
Clark 完备 化 。 在 子 句 主体 或 者 查询 中 的 否定 一 a 在 完备 集中 变 为 "a。 也 就 是 说 ， 若 查询 为 
基于 完备 知识 假设 下 的 知识 库 中 的 查询 ， 则 意味 着 该 查询 是 该 知识 库 的 完备 集 的 逻辑 结果 。 

【 例 5-26] 考虑 例 5-5 的 公理 化 。 通 过 用 户 告诉 系统 哪些 开关 是 置 上 的 ， 而 如 果 没 有 
被 告知 哪些 开关 是 置 上 的 ， 则 可 通过 系统 总 结 哪些 开关 是 置 下 的 。 这 种 方法 可 以 更 简单 地 
表示 该 领域 的 知识 。 这 可 以 通过 增加 以 下 规则 实现 : 

down_sj}~-~up_s, 

down_s;*-~up_sz 

down_s3~-~up_s; 

同样 ， 除 非 其 被 告知 断路 器 是 坏 掉 的 ， 否 则 系统 可 以 总 结 出 断路 器 是 良好 的 。 

ok_ch, + ~broken_cb, 

ok_ch,«-~broken_chz 

虽然 这 看 起 来 比 之 前 的 表示 更 加 复杂 ， 但 是 这 意味 着 在 一 个 特定 情形 下 用 户 可 以 更 容 
易 地 指明 当前 情况 。 用 户 仅 仅 需要 指定 哪些 是 置 上 的 ， 哪 些 是 坏 的 。 如 果 置 下 是 开关 的 党 
态 ， 良 好 是 断路 器 的 常态 ， 这 会 节省 很 多 时 间 。 

为 了 表示 图 5-2 的 状态 ， 用 户 指定 

up_s: 

up_ss 
系统 可 以 推断 ，s 一 定 是 置 下 的 ， 而 且 两 个 断路 器 状态 都 为 良好 。 

完备 知识 库 为 

down_s\«* 7up_s; 

down_s2** 7up_s» 

down_s3** “up_s; 

ok_ch, > broken ch, 

ok_cbh, ++ ~broken_chz 

up_s +> false 

up_s: true 

up_sı true 

broken_ch, +> false 

broken_cb:+> false 

注意 ， 在 子 句 主体 中 但 不 是 任何 子 句 头 部 的 原子 在 完备 集中 都 为 假 。 < 

回想 一 下 ， 若 对 原子 都 分 配 一 个 自然 数 ， 且 子 句 主体 中 的 原子 比 头 部 的 原子 所 分 配 的 数 更 
小 ， 则 称 知 识 库 是 无 环 (acyclic) 的。 通过 否定 即 失败 ， 非 无 环 知识 库 在 语义 上 就 会 出 现 问题 。 

下 面 的 知识 库 不 是 无 环 的 : 

a<—~b 

be~a 

这 个 知识 库 的 数据 库 完 备 集 等 价 于 a<> "2， 其 指定 a 和 8 所 取 的 真 值 不 同 ， 但 并 未 指 
定 哪 一 个 为 真 。 

下 面 的 知识 库 也 不 是 无 环 的 : 

gmr 

该 知识 库 的 Clark 完备 集 是 ce* "ae， 其 是 逻辑 矛盾 的 。 

对 于 一 个 无 环 知识 库 的 Clark 完备 化 常常 是 一 致 的 ， 且 常 给 出 每 个 原子 的 一 个 真 值 。 
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对 于 本 章 剩 下 的 部 分 ， 我们 假设 知识 库 是 无 环 的 。 
5.5.1 非 单调 推理 


在 某 子 句 加 入 前 所 能 总 结 的 任何 结论 在 加 入 该 子 句 后 仍然 可 以 被 总 结 出 来 ， 加 入 知识 
并 不 减少 可 以 被 导出 的 命题 集合 ， 则 称 该 确定 子 句 逻辑 是 单调 的 (monotonic) 。 

如 果 增 加 了 更 多 的 知识 后 ， 某 些 结论 就 失效 了 ， 则 该 逻辑 是 非 单调 的 Cnomrmonotonic) 。 
否定 即 失败 的 确定 子 句 的 逻辑 是 非 单调 的 。 非 单调 推理 对 于 表示 默认 设置 是 很 有 效 的 。 默 认 
设置 (default) 是 指 除 被 某 异 常 重 写 外 ， 都 可 使 用 的 规则 。 

比如 ， 如 果 c ER, b 在 一 般 情 况 下 为 真 ， 则 知识 库 设 计 者 可 以 编写 如 下 形式 的 规则 : 

b<c A ~ab, 

其 中 ，ab。 是 一 个 原子 ， 表 示 面 对 a 的 某 些 表达 时 存在 异常 。 给 定 c<，Agent 可 以 推断 b, 
除非 它 被 告知 abao HAJM ab, 到 知识 库 中 可 以 阻碍 结论 2。 含 有 ab, 的 规则 可 以 用 来 阻碍 规 
则 主体 条 件 的 默认 设置 。 

【 例 5-27) 假设 采购 Agent 调查 度假 情况 。 度 假 酒 店 可 以 是 毗邻 海滩 或 者 远离 海滩 。 
如 果 该 度假 酒店 毗邻 沙滩 ， 知 识 提供 者 可 能 会 特别 指出 ， 因 此 可 以 获得 以 下 子 句 : 

away_from_beach<—~on_ beach 

如 果 该 Agent 没有 被 告知 酒店 靠近 海滩 ， 则 Agent 可 以 通过 该 子 句 推断 出 酒店 远离 海 
滩 。 

协作 系统 (cooperative system) 试 图 不 产生 误导 。 如 果 被 告知 酒店 在 海滩 上 ， 则 知道 酒 
店 用 户 可 到 达 海 滩 。 如 果 他 们 已 到 达 海 淮 ， 则 期 望 用 户 可 以 在 海滩 上 游泳 。 基 于 此 有 如 下 
默认 设置 ; 

beach_access*-on_beach N ~@Dweach access 

swim_at_beach=beach_access À ~@Dpuim at beach 

如 果 沙 浴 上 的 酒店 没有 沙滩 通道 或 者 不 可 以 游泳 ， 那 么 协作 系统 将 会 告知 。 我 们 也 会 
指出 ， 如 果 存 在 一 个 封闭 海湾 或 者 大 城市 ， 则 就 不 可 以 游泳 ， 通 过 默认 设置 定义 如 下 : 

Abain a io ~-enclosed_bay Nbig_city N ~ aby nvimming_mear_city 

可 以 说 不 列 颠 哥伦比亚 对 于 靠近 城市 游泳 是 异常 的 ， 则 

CD _nvimming_mar_ciey -in BC A ~ åbne teaches 

仅 鉴于 前 面 给 定 规则 ，Agent 推断 away_from_beach。 如 果 接 下 来 被 告 之 其 on_beach, 
亦 可 以 推断 其 不 会 away_from_beach， 但 是 可 以 推断 其 beach_access 并 且 swim_at_beach, 4 
果 其 也 被 告知 了 enclose_bay 和 big_city， 则 其 就 不 会 被 推断 swvim_at_beach。 然 而 ， 如 果 其 接 
下 来 被 告知 in_BC， 那 么 可 以 推断 swim_at_beach. 

通过 对 正常 情况 下 赋予 默认 设置 ， 用 户 可 以 通过 告诉 其 什么 是 异常 的 来 与 系统 进行 交 
互 ， 这 在 通信 中 非常 经 济 。 用 户 不 必 对 明显 的 事物 进行 陈述 。 < 

非 单调 性 推理 的 一 种 思考 方式 是 进行 变 元 (argument) 。 规 则 可 以 被 用 来 作为 论证 的 组 
件 ， 对 否定 异常 给 出 了 一 种 削弱 论证 的 方式 。 注 意 ， 在 提出 的 语言 中 ， 只 有 已 存在 的 正面 
论证 可 以 被 削弱 。 在 更 泛 化 的 理论 中 ,正面 论证 和 负面 论证 可 以 互相 攻击 。 


5.5.2 完备 知识 的 验证 程序 


1. 自 底 向 上 程序 
否定 即 失败 的 自 底 向 上 程序 是 对 确定 子 句 自 底 向 上 程序 的 修改 。 区 别 是 它 可 以 在 被 导 
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出 的 结果 集合 C 中 加 入 形 如 ~ 的 文字 ， 当 可 以 确定 p 一 定 失 败 时 ,可 以 将 一 p 加 入 
C 中 。 

失败 可 以 递归 地 进行 定义 当 以 p 为 头 部 的 子 句 的 每 个 主体 都 失败 时 则 p 是 失败 的 。 
如 果 主 体 中 有 一 个 文字 是 失败 的 ， 则 该 主体 是 失败 的 。 如 果 已 经 导出 ~ 及 ， 则 主体 中 的 原 
Tb 是 失败 的 。 如 果 已 经 导出 5;， 则 主体 中 的 否定 一 Bb; 是 失败 的 。 


5-11 对 于 KB 的 计算 结果 ， 给 出 1; procedure NAFBUCKB) 
了 一 个 自 底 向 上 否定 即 失 败 的 解释 程 | 2， Inputs 
3; KB: 可 以 包含 否定 即 失 败 的 子 句 集合 








序 。 注 意 这 包含 了 子 句 的 主体 为 空 的 情 ‘a ae 
况 (其 中 m=0， 并 且 在 头 部 的 原子 被 加 ”| 5 产生 于 KB 的 完备 集 的 文字 集合 
人 了 C 中)， 而 且 存 在 某 一 原子 并 没有 6: Local 
出 现在 任何 一 个 子 句 的 头 部 的 情况 (这 | 6 。 ATAA 
种 情况 中 ， 其 否定 被 加 入 C 中 ) 。 9; repeat 
Lø 5-28] 考虑 如 下 子 句 : 19; either 
11; select rE KB, 满 足 
paqN\~r 12; r 是 < 有 hb No Ab” 
ps 13; 对 于 所 有 i,b:EC, 且 
ge—~s 14; h€C; 
paw 15; C#=CU {h} 
16; or 
t 17; select h, HHE~hEC H 
sw 18: 其 中 每 一 个 子 句 “h<-b, A Nba” EKB 
其 次 是 一 组 加 入 C 中 的 可 能 文字 序列 t9 WEEP bs ~b EC 
20: 或 者 某 个 b= 二 ~g 且 gEC 
3 21， C:=CÙU {~h} 
~r, 22: mti 没有 更 多 的 可 选 原子 





5-11 自 底 向 上 和 否定 即 失败 验证 程序 


ps 
其 中 ， 由 于 t 是 作为 原子 子 句 给 定 的 ， 所 以 i 是 平凡 导出 的 ; 由 于 ziGC， 导 出 一 ~; 由 于 没 
有 子 句 w， 导 出 一 w， 所 以 在 图 5-11 第 18 行 “每 一 个 子 句 ”的 条 件 平凡 持 有 。 由 于 
一 wEC， 导 出 文字 一 s; 由 于 主体 全 部 被 证 明了 ， 导 出 如 和 9q。 < 

2. 自 顶 向 下 的 否定 即 失 败 程序 

对 于 完备 知识 假设 的 自 顶 向 下 程序 通过 否定 即 失 败 产 生 。 这 与 图 5-4 自 顶 向 下 确定 子 句 
验证 程序 相似 。 这 是 一 个 非 确 定性 程序 ， 其 可 以 通过 搜索 成 功 的 选择 来 实现 。 当 选择 了 一 个 
否定 原子 一 a， 则 对 于 原子 a 的 一 个 新 的 验证 就 开始 了 。 如 果 对 于 a 验证 失败 了 ， 则 一 <“ 成 
功 。 如 果 对 于 a 的 验证 成 功 了 ， 则 算法 失败 ， 必 须 进 行 其 他 的 选择 。 算 法 如 图 5-12 所 示 。 

【 例 5-29) 考虑 例 5-28 的 子 句 ， 假 设 查询 是 ask p。 

初始 化 G={p}. 

使 用 对 于 p KERHA, GÆR lg ~r}. 

选择 g， 并 将 它 与 第 三 条 规则 的 主体 替换 ，CG 变 为 { 一 *， 一 ~)} 。 

接 下 来 选择 ~s*， 并 开始 验证 *。 验 证 s 失败 ， 因 此 G 变 为 {一 r}。 

接 下 来 选择 一 r*， 并 开始 验证 *>。 对 于 验证 ~>， 有 子 目标 一 心 因此 需要 尝试 验证 t. X 
于 上 的 验证 成 功 。 因 此 对 于 一 :上 的 验证 失败 ， 由 于 对 于 了 > 没有 更 多 的 规则 ， 则 对 r 的 验证 失 
败 。 因 此 ， 对 于 一 ~ 的 验证 成 功 。 
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G 为 空 ， 所 以 为 顶层 查询 返回 yes. < 

注意 这 实现 了 有 限 失 败 (finite failure)， 因 为 如 果 验 证 程序 没有 停止 ， 则 其 就 没有 结 
论 。 比 如 ， 假 设 存 在 一 个 规则 p<p. ask p 的 查询 就 不 能 停止 。 完 整 性 ze* 广 没有 给 出 任 
何 信息 。 即 使 可 能 存在 一 种 方法 得 出 永远 不 会 有 尹 的 验证 ， 但 由 于 其 并 没有 遵循 完备 性 ， 
合理 的 验证 程序 也 不 能 得 出 一 p 的 结论 。 


1: non-deterministic procedure NAFTD(KB,Query) 
2; Inputs 

， KB: 可 以 包含 否定 即 失 败 的 子 句 集合 

4 Query: 需 要 验证 的 文字 和 集合 

5; Output 

6; 如 果 KB 的 完整 性 蕴含 Query 返回 yes ,否则 返回 no 
T: Local 

8: G 是 一 个 文字 集合 

9: Gt=Query 

10; repeat 

11: select 文字 LEG 

12; 让 /是 一 a 的 形式 then 

13; if NAFTD(KB,a) kik then 

14; G +=G\ {2} 





18: choose KB 中 子 句 /=-B 
19; 在 G 中 用 B RRL 

20; until G={} 

21; return yes 





5-12 自 项 向 下 否定 即 失 败 解释 程序 


5.6 JAR 


溯 因 推理 (abduction) 是 一 种 推理 的 形式 ， 其 中 假设 是 用 来 解释 观察 的 。 比 如 ， 如 果 
Agent 观察 到 某 些 灯 没 有 工作 ， 则 其 可 以 推测 在 该 世界 中 发 生 了 什么 来 解释 为 什么 灯 没 有 
工作 。 在 智能 教学 系统 中 ， 可 以 尝试 通过 学 生 所 理解 的 知识 和 其 不 理解 的 知识 ， 解 释 为 什 
么 学 生 给 出 了 那样 一 些 答案 。 

淹 因 推理 一 词 是 由 Peirce(1839 一 1914) 提 出 的 ， 用 于 使 这 种 推理 类 型 区 别 于 演绎 和 归 
纳 。 演 绎 (Cdeduction) 是 确定 哪些 命题 是 逻辑 跟随 于 一 组 公理 ， 而 归纳 (induction) 则 是 从 例 
子 中 推断 一 般 性 关系 。 

EWAH, Agent 基于 其 观察 到 的 情况 推测 哪些 内 容 可 能 是 正确 的 。Agent 确定 
其 观察 所 蕴含 的 内 容 当 何 种 可 能 为 真 时 会 使 得 观察 为 真 。 观 察 是 隐 含 于 矛盾 之 中 的 
(因此 矛盾 逻辑 蕴含 所 有 )， 所 以 我 们 希望 从 我 们 的 观察 的 解释 中 找到 矛盾 。 

为 了 形式 化 滴 因 推理 ， 我 们 使 用 Horn 子 句 和 假说 (与 反 证 法 证 明 使 用 相同 的 输入 )。 
给 出 了 系统 : 

。 知识 库 KB， 是 一 个 Horn 子 句 的 集合 。 

。 假说 (assumable) 原 子 集合 A， 假 说 是 假设 的 基础 。 

不 将 观察 加 入 知识 库 ， 而 是 需要 解释 观察 。 

(KB, A) WAS (scenario RAMTRH, 使 得 KBU 五 是 可 满足 的 。 如 果 一 个 模型 
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存在 ， 且 其 中 每 一 个 KB 的 元 素 和 H 的 每 一 个 元 素 都 是 真 的 ，KBU HH 就 是 可 满足 的 。 如 
RH HAF RRA KB 的 冲突 ， 则 KBUH 就 是 可 满足 的 。 

对 于 在 (KB，A) 中 的 命题 g 的 解释 (explanation) 是 一 个 情景 ， 该 情景 与 KB 一 起 实现 g. 

也 就 是 说 ， 对 于 命题 g 的 解释 是 一 个 集合 瓦 ，HSA 使 得 

KBUH Kg 

KBUH false 

对 于 《天 有 B，4) 中 ， 如 果 互 是 (天 B，A> 中 g 的 解释 ， 且 没有 一 个 严格 H 的 严格 子 集 
仍然 是 (KB，A) 中 的 g 的 解释 ， 那 么 五 是 g 的 最 小 解释 (minimal explanation). 

【 例 5-30) 作为 一 个 诊断 助手 ， 考 虑 下 面 的 简单 知识 库 和 假设 : 

支气管 类 < 流感 

AERAR 

咳嗽 一 支气管 炎 

Re KAR 

发 烧 一 流感 

RW Fi <— Tie A 

假 二 吸烟 人 非 吸 烟 者 

假设 :器 烟 , 非 吸烟 者 ,流感 

如 果 Agent 观察 到 气 呢 ， 有 两 种 最 小 解释 : 

{流感 } 和 {吸烟 } 

这 些 解 释 隐 含 了 支气管 炎 和 咳嗽 。 

如 果 观 察 到 了 气喘 人 发 烧 ， 则 只 有 一 个 最 小 解释 : 

{流感} 

另 一 个 解释 在 最 小 解释 中 就 不 再 需要 了 。 

注意 ， 当 观察 到 气喘 时 ，Agent 推理 一 定 是 支气管 炎 ， 并 上 且 流感 和 吸烟 是 假设 的 罪魁 
祸首 。 然 而 ， 如 果 也 观察 到 了 发 烧 ， 则 病人 一 定 是 得 了 流感 ， 所 以 就 没有 必要 假设 其 吸 
烟 ， 它 已 经 被 解释 消除 (explained away) T. 

如 果 观 察 到 的 是 气喘 人 非 吸 烟 者 ， 那 具有 一 种 最 小 解释 : 

{ 流 感 , 非 吸烟 者 } 
另 一 个 气喘 的 解释 与 非 吸烟 者 这 个 条 件 不 一 致 。 < 

基于 行为 的 观察 来 确定 在 系统 内 部 将 会 发 生 的 事情 是 诊断 (diagnosis) 或 确认 Crecogni- 
tion) 问 题 。 在 溯 因 诊断 (abductive diagnosis) 中 ，Agent 猜测 疾病 、 障 碍 和 正常 工作 的 部 
件 来 解释 所 观察 到 的 症状 。 这 与 基于 一 致 性 的 诊断 不 同 ， 在 一 致 性 诊断 中 设计 者 不 仅 对 正 
常 行为 建 模 也 对 错误 行为 建 模 ， 观 察 被 用 来 解释 而 不 是 加 入 知识 库 中 。 由 于 知识 库 必 须 可 
以 实际 地 证 明 观 察 ， 漳 因 推 理 诊断 需要 更 加 细致 地 建 模 并 且 给 出 更 加 详细 的 诊断 。 它 也 允 
if Agent 来 诊断 没有 正常 表现 的 系统 。 比 如 ， 一 个 智能 教学 系统 中 ， 通 过 观察 学 生 的 行 
为 ， 该 教学 系统 可 以 推测 出 哪些 知识 学 生理 解 了 ， 哪 些 没 有 理解 ， 这 可 以 引导 教学 系统 的 
行为 。 

漳 因 推理 也 可 以 用 来 进行 设计 (Cdesign) ， 需 要 进行 解释 的 事物 是 该 设计 的 目标 ， 而 假 
说 则 是 该 设计 的 基石 。 这 种 设计 就 是 一 种 解释 。 一 致 性 意味 着 设计 是 可 行 的 。 设 计 目 标 意 
味 着 该 设计 达到 了 预期 设计 目标 。 

(Oi 5-31] 考虑 图 5-2 中 的 电气 领域 系统 。 与 在 例 5-20 中 提出 的 一 致 性 诊断 例子 的 表 
示 一 样 ， 公 理化 可 能 在 系统 中 发 生 的 假设 。 在 潮 因 诊断 中 ， 必 须 公 理化 既 从 缺陷 又 从 一 般 
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性 推理 两 个 方面 得 出 的 内 容 。 对 于 每 一 个 可 以 被 观察 的 原子 ， 都 需要 公理 化 其 是 如 何 产生 
的 。 在 接 下 来 的 例子 中 ， 假 说 原子 使 用 “假说 ”关键 字 内 联 声明 。 

用 户 可 以 观察 2 是 明 或 者 暗 ， 我 们 必须 表示 出 公理 化 系统 中 使 该 观察 为 真 的 规则 。 如 
果 它 状态 良好 且 有 电力 供应 ， 则 灯 L 是 明 的 。 如 果 灯 是 坏 的 或 者 没有 电 ， 则 其 为 暗 的 。 系 
统 可 以 假设 h 是 好 的 或 者 坏 的 ,但 是 不 能 两 个 同时 假设 : l 

lit_l,<-live_wy 人 ok 

dark_l,<-broken_l, 

dark_l,<-dead_w» 

assumable ok_1, 

assumable broken_l, 

false<-ok_l, A broken_l, 

电线 w 是 通路 或 者 断路 基于 开关 的 位 置 和 进入 的 电线 是 通 或 者 断 : 

live_wo~<live_w, Nup_s: \ ok_s2 

live_wo~<-live_wz A down_sz \ ok_s2 

dead_wy<=-broken_sz 

dead_wo<-up_s; A dead_w, 

dead_wo <—down_s» À dead_wz 

assumable ok_sz 

assumable broken_s2 

false<-ok_s2 N broken_sz 

同样 可 以 公理 化 其 他 的 电线 。 一 些 电 线 依赖 于 断路 器 是 正常 的 或 是 损坏 的 : 

live_w <-live_ws; | ok_ch, 

dead_w ;~<-broken_ch; 

dead_w;~<-dead_w, ` 

assumable ok_ch, 

assumable broken_ch, 

falsex-ok_cbh; A broken_ch, 

对 于 这 个 问题 的 剩余 部 分 ， 我 们 假设 其 他 的 灯 和 电线 也 类 似 的 表示 。 

外 部 的 电源 可 以 是 通 的 ， 也 可 以 是 断 的 : 

live_w; <—live_outside 

dead_ws<-outside_power_down 

assumable live_outside 

assumable outside_power_down 

false<—live outside À outside_power_down 

开关 可 以 假设 为 置 上 或 置 下 ; 

assumable up_s; 

assumable down_s; 

false<up_s, A down_si 

对 于 Lit _ h 有 两 种 最 小 解释 : 

{ live_outside,ok_ch, ,ok_l, ,ok_s; ,ok_s2 ,up_s; »up_sz} 

{down_s, down ss ,live_outside,ok_ch, rok livok_ si »ok_s2} 

在 设计 阶段 可 以 看 出 ， 作 为 一 种 保证 灯 是 亮 的 方法 : 把 两 个 开关 都 置 上 或 者 两 个 都 置 
下 ， 并 保证 所 有 的 开关 都 正常 工作 。 如 果 Agent 观察 到 4 为 亮 的 ， 可 用 该 方法 确定 发 生 
的 事情 。 上 述 两 种 情况 都 必须 满足 。 
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对 于 dark_l, 有 10 种 最 小 解释 : 

{broken_l; } ‘ 

{broken_sz } 

{down_s, ,up_se} 

{broken_s, sup_sz} 

- {broken_ch, ,up_s, »up_ss} 

{outside_power_down,up_s, ,up_sz} 

{down_sz,up_s} 

{broken_s; »,down_sz } 

{broken_ch, ,down_s; ,down_s» } 

{down_s, ,down_s, ,outside_power_down} 

对 于 dark_l, \lit_l, A 6 种 最 小 解释 : 

{broken_l, ,live_outside,ok_ch, ,ok_lz ,ok_s3 yzD 力 Ss》 

{ broken_s, ,live_outside,ok_ch; yok lo sok_s3 »p_ss } 

{down_s; ,live_outside,ok_ch, sok_lz ,ok_s3 yup_sz ,up_s;} 

{broken_s, »live_outside,ok_cb; sok_lz yok_s3 ,up_so sup_ss} 

{down_s, ,live_outside,ok_ch, sok ls ,ok_sy ,up_s; »sup_ss} 

{broken_s; sdown_s» ,live_outside,ok_ch, yok_ ls ,ok_s3 ;up_ss } 

注意 解释 不 能 包括 outside_power_down 或 者 brokez_cai ， 因 为 它们 对 于 解释 总 是 明 
状态 来 说 是 矛盾 的 。 < 

3) RE ts YS EA Horn 子 句 中 自 底 向 上 和 自 顶 向 下 的 实现 方法 。 
图 5-9 的 自 底 向 上 的 实现 方法 计算 C 中 每 一 个 子 句 的 最 小 解释 。 也 可 以 使 用 在 之 前 已 经 讨 
论 的 修剪 方法 。 自 顶 向 下 实现 可 以 通过 使 用 相同 的 编码 和 知识 库 产 生 矛 盾 来 找到 所 有 g 的 
解释 ， 证明 g 而 不 证 明 false, g 的 最 小 解释 是 最 小 假说 集合 ， 该 假说 集合 被 收集 用 于 证 
H g 为 非 冲 突 子 集 。 


5.7 因果 模型 


原始 (primitive) 原 子 是 当 其 为 真 时 ， 标 记 为 原子 子 句 的 原子 。 导 出 (derived) 原 子 是 当 
其 为 真 时 ， 使 用 规则 来 定义 的 原子 。 特 别 地 ， 设计 者 为 导出 原子 定义 公理 并 且 希 望 用 户 来 
指出 哪些 原始 原子 是 真 的 。 因 此 ， 导 出 原子 会 从 原始 原子 和 其 他 可 以 被 导出 的 原子 中 推导 
出 来 。 

Agent 的 设计 者 必须 在 设计 一 个 领域 知识 库 时 做 出 很 多 决定 。 比 如 ， 考 虑 两 个 都 为 真 
的 命题 ，a 和 28。 对 于 如 何 定义 它们 有 很 多 种 选择 。 设 计 者 可 以 指定 ac Fb 都 是 原子 子 句 ， 
并 都 作为 原始 原子 。 设 计 者 也 可 指 指定 a 为 原始 原子 , 5 为 导出 原子 ,标记 a 为 原子 子 句 
并 给 定 规则 5<-a。 另 外 ， 设 计 者 可 以 指定 原子 子 句 5 和 规则 a<-b5， 将 5 作为 原始 原子 ，a 
作为 导出 原子 。 这 些 表 达 都 是 多 辑 等 价 的 ， 它们 不 能 从 逻辑 上 被 区 分 。 然 而 ， 在 当知 识 库 
改变 的 时 候 它 们 会 产生 不 同 的 效果 。 假 设 a 对 于 一 些 推理 来 说 不 再 是 为 真 ， 在 第 一 和 第 三 
种 表示 中 ,4 将 仍然 会 是 真 ， 但 在 第 二 种 表示 中 。 就 不 再 是 真 了 。 

因果 模型 (causal model) 或 者 是 具有 因果 关系 (causality) 的 模型 ， 是 某 一 知识 域 的 表 
示 ， 其 可 以 预测 干预 的 效果 。 干预 (intervention) 是 指 对 某 一 变量 强制 赋予 一 个 特殊 的 值 ， 
也 就 是 说 ， 在 模型 中 干预 可 以 不 利用 其 他 变量 而 改变 值 。 

为 了 预测 干预 的 效果 ， 因 果 模 型 表示 了 原因 如 何 列 含 它 的 效果 。 当 原因 被 改变 时 ， 干 
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预 的 效果 会 改变 。 证 据 模 型 (evidential model) 展示 了 领域 知识 的 另 一 个 方向 一 一 从 效果 到 
RA, 注意 我 们 不 是 假设 一 个 效果 存在 原因 ， 而 是 有 很 多 联合 的 命题 使 得 效果 为 真 。 

[65-32] 考虑 图 1-8 描绘 的 电气 系统 。 在 这 个 系统 中 ， 开 关 ss EELA b BS 
的 。 有 很 多 种 方法 可 以 公理 化 这 个 系统 。 例 5-5 包括 了 如 下 因果 规则 : 

lit_l,<-up_s; À live_ws 

此 外 ， 我 们 可 以 指定 证 据 方向 : 


up_s;<-lit_l, 





live_w;<-lit_l, 
系统 中 的 所 有 陈述 都 为 真 。 
有 人 通过 一 些 模型 外 部 的 设备 (而 不 是 通过 翻转 开关 ) 将 ss 点 亮 ， 我 们 就 不 会 推理 出 开关 作 
为 副作用 而 被 置 上 。 C] 
【 例 5-33] 考虑 图 1-8 描述 的 电气 系统 。 下 面 的 命题 描述 了 关于 开关 5 、ss WT h Z 
间 的 不 变 关系 ， 假 设 所 有 组 件 都 工作 正常 : 
up_s;<-(lit_h«up_s:) (5-1) 
这 个 公式 是 指 三 个 命题 之 间 的 对 称 关 系 ， 当 且 仅 当 有 奇数 个 命题 为 真 时 ， 公 式 为 
真 。 然 而 在 现实 世界 中 ， 这 些 命题 之 间 的 关系 是 不 对 称 的 。 假 设 在 某 一 状态 下 所 有 的 原 
子 都 为 真 。 令 5 置 下， 并 不 能 使 得 置 下 并 使 4 AB. AR, Hau EFA lith 为 
假 ， 而 ups. 会 保持 不 变 。 因 此 ， 为 了 预测 干预 的 结果 ， 我 们 需要 比 上 面 式 5-1 更 多 的 
命题 。 
因果 模型 为 : 
lit_ leup_ sl Nup_ss 
lit <—~up siN ~up_s» 
完成 这 个 命题 等 价 于 式 (5-1) ， 然 而 ， 当 其 中 一 个 值 变化 时 ， 它 可 以 进行 合理 的 预测 。 
证 据 模 型 为 : 
up_s;*-lit_l; Nup_s: . 
up_sys-~lit_l, A ~up_s 
这 可 以 被 用 来 解释 关于 是 否 5 置 上 是 基于 8 HMBAAGL 是 点 亮 的 问题 。 其 完整 
性 等 价 于 式 (5-1)。 然 而 ， 它 并 不 准确 地 预测 干预 的 结果 。 可 
因果 模型 (causal model) 包 括 ; 
。 背景 变量 (background variably HA, i i RMA Sb AB B (exogenous variable), 
是 由 外 部 模型 影响 来 确定 的 ; 
。 内 因 变 量 (endogenous variable) 集 合 ， 其 作为 模型 的 一 部 分 来 确定 ; 
* 函数 集合 ， 每 一 个 内 因 变 量 对 应 一 个 函数 ， 其 指定 内 因 变 量 如 何 由 其 他 内 因 变 量 
和 外 因 变 量 来 确定 的 。 变 量 X 的 函数 称 为 X 的 因果 机 制 (causal mechanism)。 整 
组 函数 对 于 每 一 个 为 背景 变量 的 赋值 必须 有 了 唯一 解 。 
当 变 量 是 命题 的 时 候 ， 对 于 一 个 命题 的 函数 可 以 被 指定 为 将 其 作为 头 部 的 子 句 集合 
(基于 完备 知识 假设 ) 。 知 识 库 是 无 环 的 情况 下 可 以 得 到 唯一 的 解 。 
[B 5-34] 在 例 5-33 中 ， 式 5-1 可 以 作为 lith 的 因果 机 制 。 这 可 以 通过 规则 Zit 
在 该 模型 的 头 部 指出 。 对 于 ups 和 wp_ss 会 有 其 他 的 因果 机 制 ， 或 者 在 该 模型 中 可 能 它 
们 会 是 背景 变量 而 不 受 系统 控制 。 < 
干预 (intervention) 是 通过 一 些 机 制 将 变量 X 强制 转换 为 一 个 特定 的 值 ” 而 不 改变 模 
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型 中 的 其 他 变量 。 可 以 通过 将 因果 机 制 X 蔡 换 为 X= 二 vu， 来 观察 干预 的 结果 。 为 了 干预 强 
tl p 为 真 ， 需要 将 源 于 p 的 子 句 替换 为 p 的 原子 子 句 。 为 了 干预 强制 命题 p 为 假 ， 需 要 
BR p HFA. 

如 果 背 景 变 量 的 值 未 知 ， 背 景 变量 可 以 通过 假说 表示 。 观 察 可 以 通过 两 个 阶段 来 实现 : 

1) 潮 因 推理 通过 背景 变量 来 解释 观察 ; 

2) 通过 预测 来 观察 解释 的 后 继 。 

显然 ， 在 给 定 观察 时 淹 因 推理 告诉 我 们 世界 是 什么 样 的 ; 在 给 定 世 界 是 怎样 的 情况 
下 ， 预 测 告诉 我 们 行为 的 结果 是 什么 。 


5.8 本 章 小 结 


。 在 一 个 系统 中 ， 当 不 确定 性 或 模糊 性 不 存在 时 ， 确 定子 句 知识 库 可 以 用 来 指定 某 个 领域 的 原子 子 
句 和 规则 。 

。 给 定 一 组 关于 某 领域 的 事实 集合 ， 逻 辑 推 理 刻画 了 为 真 的 事实 。 

。 一 个 合理 且 完 备 的 验证 程序 可 以 用 来 确定 知识 库 的 他 辑 推理 。 

。 可 以 使 用 反 证 法 来 从 Horn 子 句 知识 库 中 获得 推论 。 

。 在 知识 是 完备 的 情况 下 (例如 ， 基 于 完备 知识 假设 )， 可 以 使 用 否定 即 失 败 方法 。 

。 潮 因 推理 可 用 来 解释 观察 。 

。 因 呆 模型 可 以 预测 干预 的 效果 。 
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编程 中 关于 语义 和 性 能 的 更 多 细节 可 以 参看 LloydL1987] 的 研究 。 

对 于 否定 即 失 败 的 工作 是 基于 Clark[1978] 的 工作 展开 的 。Apt 和 Bol[1994] 总 结 了 使 用 不 同 技术 和 
否定 即 失 败 的 方法 来 处 理 问题 。 自 底 向 上 否定 即 失 败 的 验证 程序 的 基础 是 Doyle[1979] 的 真 值 维护 系统 
(truth maintenance system), Doyle 也 考虑 了 增加 或 者 移 除 子 句 的 情况 ， 见 习题 5.15。 而 McCarthy 
[1986] 提 倡 使 用 默认 设置 推理 的 异常 方法 。 

在 本 书 中 所 阐述 的 湖 因 推理 框架 是 基于 de Kleer[19861] 等 人 提出 的 基于 假设 的 真 值 维护 系统 (ATM) 
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的 工作 的 总 结 可 以 参看 BorchL2008] 的 研究 内 容 。 
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和 HunterL2008] 也 致力 于 有 关 论 证 的 工作 。 


de Kleer[1986] 使 用 了 基于 ATMS 的 自 底 向 上 Horn 实现 方法 寻找 解释 。ATMS 是 一 种 更 加 复杂 的 


方法 ， 其 考虑 了 子 句 和 假说 的 增加 问题 ， 而 我 们 忽略 了 这 个 问题 (见习 题 5. 16) 。 


Pearl[ 2000] 以 及 Spirtes, Glymour 和 Scheines[2000] 讨 论 了 因果 模型 。 


5.10 习题 


本 章 习题 使 用 AILog 系统 ， 它 是 一 种 简单 的 逻辑 推理 系统 ， 可 以 实现 在 本 章 中 讨论 的 所 有 推理 ， 


AILog 系统 可 以 从 本 书 的 网 站 获得 。 


5.1 


5.2 


假设 我 们 想 要 在 电气 领域 中 ， 对 将 一 个 电 水 壶 插入 电源 插座 中 的 系统 进行 推理 。 假 设 电 水 壶 为 了 进 
行 加 热 ， 必 须 插入 一 个 电源 插座 中 ， 其 必须 打开 ， 而 且 必 须 将 水 装 入 其 中 。 
使 用 AILog 语法 ， 写 下 使 得 系统 确定 电 水 过 是 否 在 加 热 的 公理 。AILog 对 于 电力 环境 的 编码 方式 
可 以 从 本 书 网 站 获得 。 
你 必须 : 
。 给 出 所 有 预计 使 用 的 符号 的 解释 。 
。 写 出 可 以 在 AILog 中 加 载 的 子 句 。 
。 展示 出 AILog 中 运行 得 到 的 知识 库 。 
考虑 图 5-13 所 描述 的 房间 水 管 系统 。 
FE TAF HR, pi, po 和 ps 表示 为 冷水 管 , th. AM 1 表示 水 龙头 ，d! 、d。 和 ds 表示 排水 管 ， 
shower 表示 淋浴 器 ，bath 表示 浴缸 sink RAK. floor 表示 地 板 ， 图 5-13 给 出 了 符号 的 意义 。 





图 5-13 房间 水 管 系统 


假设 我 们 有 如 下 的 原子 : | 
。 WR p 中 有 干线 压力 ， 则 pressurized_p; HH. 
= 如 果 水 龙头 ti IF, M ont AH. 
。 如 果 水 龙头 去 关闭 ， 则 off ti 为 真 。 
。 WR 6 AN. M wet_5 为 真人 2 可 以 是 水 档 、 浴 和 缸 或 者 地 板 ) 。 
。 如 果 水 流 经 水 管 p W fiow_p: AH. 
。 如 果 水 槽 被 塞 住 ， 则 plugged_sink 为 真 。 
。 WRB DRE, Wl plugged_bath HH. 
。 MRKBARBE. M unplugged_sink HH. 
。 WMRADKRIFZ, Mi unplugged_bath HH. 
RFA i M t 是 打开 的 并 且 浴 红 未 被 塞 住 ， 那么 表示 如 何 将 水 从 a 排水 管 排除 的 确定 
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子 句 公理 化 如 下 : 


-pressurized_p, 


pressurized_p,~<-on_t, N pressurized_p, 

flow_shower<-on_t: \ pressurized_p» 

wet_bath< flow_shower 

flow_d,<-wet_bath \ unplug ged_bath 

flow_d,<« flow_d2 

on_ti 

on_te 

unplugged_bath 

(a) 完成 对 与 公理 化 浴缸 相同 形式 的 水 槽 的 公理 化 ， 并 在 AILog 中 测试 。 

(b) 如 果 水 暖 工 没有 在 房子 里 ， 你 希望 用 户 为 你 提供 哪些 信息 ? 改变 该 公理 化 系统 ， 以 便于 询问 用 
户 有 关 的 信息 。 

Co) 如 果 水 槽 溢出 或 者 浴 拭 溢出， 公理 化 地 板 如 何 为 潮湿 的 。 你 需要 以 下 条 件 : 当 塞 子 塞 住 并 且 水 
流 和 人 时 ， 则 它们 会 发 生 溢出 。 在 你 给 出 预期 解释 时 ， 你 可 能 需要 引 人 新 的 原子 命题 。( 假 设 塞 
子 和 阁 门 在 一 个 小 时 内 有 相同 的 位 置 ， 你 不 需要 去 公理 化 如 何 动态 打开 阅 门 或 插入 、 移 除 塞 
子 )。 在 AILog 中 进行 测试 。 

(d 假设 热 水 系 统 安装 到 了 阁 门 所 的 左 侧 。 在 水 管 上 有 另 一 个 阀门 ， 控 制 热 水 来 进行 洗澡 和 进入 水 
槽 中 (对 于 每 一 个 水 档 ， 有 分 开 的 冷水 和 热 水 阀 门 )。 将 这 个 信息 加 入 你 的 公理 化 系统 中 ， 并 对 
于 所 有 你 所 使 用 的 命题 给 出 符号 。 在 AILog 中 测试 。 

给 定 以 下 的 知识 库 : 

asb Nc 

axeN\f 

b<d 

bef Nh 


cee 


gsc 

(a) 给 出 该 知识 库 的 模型 。 

(b) 给 出 一 个 不 是 该 知识 库 的 模型 的 解释 。 

(c) 给 出 两 个 该 知识 库 的 逻辑 推理 的 原子 。 

(d) 给 出 两 个 不 是 该 知识 库 的 逻辑 推理 的 原子 。 
给 定 包含 以 下 子 句 的 知识 库 KB: 

axbAc 


-SEA 人 bb 
g<cAk 
jwahb 
(a) 写 出 对 于 这 个 例子 的 自 底 向 上 验证 过 程 。 给 出 KB 所 有 的 逻辑 结论 。 
(b) f 不 是 KB 的 逻辑 结论 。 给 出 KB 的 一 个 模型 ， 在 该 模型 中 f 为 假 。 
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(c) a 是 KB 的 逻辑 结论 ， 对 于 查询 问题 ask a， 给 出 一 个 自 顶 向 下 的 推导 。 
自 底 向 上 验证 过 程 可 以 包含 一 个 用 户 询问 机 制 ， 该 机 制 需要 询问 用 户 所 有 的 原子 命题 。 自 底 向 上 的 
验证 程序 如 何在 不 用 询问 用 户 每 一 个 可 询问 的 原子 的 前 提 下 ， 保 证 对 所 有 原子 的 验证 都 具有 确定 子 
名 的 知识 库 的 逻辑 完备 性 ? 
本 题 研 究 如 何在 拥有 明确 的 语义 的 情况 下 调试 程序 。 本 书 网 站 中 的 文件 elect_bug2. ail 是 对 于 图 5-2 
的 电气 布线 领域 的 一 种 公理 化 的 形式 ， 但 是 它 包 含 了 一 个 漏洞 子 句 ( 即 在 图 中 的 预期 解释 中 有 一 个 
为 假 ) 。 本 习题 的 目标 是 通过 使 用 AILog 来 找到 该 漏洞 子 句 ， 在 AILog 中 使 用 例 5-5 所 给 定 的 符号 
定义 。 你 不 需要 去 看 知识 库 就 可 以 找到 漏洞 规则 ! (如 果 你 喜欢 ， 你 可 以 通过 观察 知识 库 来 找到 漏 
洞子 句 ， 但 是 这 不 会 在 本 题 中 帮助 到 你 。) 所 有 你 需要 知道 的 是 程序 中 符号 的 意义 和 在 预期 解释 中 哪 
些 是 真 的 。 
查询 lith 可 以 被 证 明 , 但 是 在 预期 解释 中 它 为 假使 用 AILog 中 的 how 问题 来 找到 在 预期 解 
释 中 哪些 子 句 的 头 部 是 假 的 ， 哪 些 为 真 。 这 就 是 漏洞 规则 。 
考虑 下 面 用 以 解释 什么 人 形迹 可 疑 的 知识 库 和 假说 : 
goto_forest<— walking 
get_gun<—hunting 
goto_forest<—hunting 
get_gun<—robbing 
Eoto_bank<-—robbing 
goto_bank<—banking 
fill_withdrawal_form<banking 
falsex-banking N\ robbing 
false~wearing_good_shoes À goto_forest 
assumable walking hunting , robbing ,banking 
(a) 假设 观察 到 get_gun， 对 于 这 个 观察 来 说 所 有 的 最 小 解释 是 什么 
(b) 假设 观察 到 get_gun A goto_bank。 对 于 这 个 观察 所 有 的 最 小 解释 是 什么 ? 
O 在 最 小 解释 中 ， 有 没有 可 以 移 除 的 观察 ? 为 了 对 其 进行 解释 ， 必 须要 加 入 哪些 条 件 ? 
(d) goto_bank 的 最 小 解释 是 什么 ? 
Ce) goto_bank A get_gun À fill_withdrawal_form 的 最 小 解释 是 什么 ? 
假设 对 于 一 个 指定 的 病人 可 能 有 4 种 可 能 的 疾病 : p、g、r 和 s。p 和 9g 会 导致 斑点 。g、r 或 者 其 
中 的 一 个 (或 者 多 个 ) 会 导致 发 烧 。 病 人 已 经 长 斑 并 且 发 烧 。 假设 你 已 经 决定 根据 症状 使 用 漳 因 推理 
来 诊断 这 个 病人 。 
Ca) 请 写 出 如 何 使 用 Horn 子 句 和 假设 来 表示 这 个 知识 。 
(b) 写 出 如 何 使 用 淹 因 推理 来 诊断 这 个 病人 。 请 明确 写 出 查询 和 推理 的 结果 。 
(c) 假设 患者 不 能 同时 患 有 p 和 s。 写 出 你 在 (a) 问 题 中 提出 的 知识 库 有 哪些 变动 。 写 出 如 何 使 用 潮 
因 推 理 方法 通过 新 的 知识 库 来 诊断 病人 。 明 确 写 出 查询 和 推理 的 结果 。 
考虑 以 下 的 子 句 和 完整 性 约束 : 
False<a 人 D 
false<c 


avd 


b<-g 
b<h 
c<h 


假设 假说 是 {4，e，f，g， hy 让， 那么 最 小 约束 是 什么 ? 


5.10 深 空 一 号 (http:/nmp. jpl. nasa. gov/ds1l/) 是 由 美国 航空 航天 局 在 1998 年 10 月 推出 的 飞船 。 它 采 
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用 人 工 智 能 技术 用 于 其 判断 和 控制 。 详 细 的 细节 可 以 参考 Muscettola, Nayak, Pell 和 Williams 
[1998] 或 者 http: //ic. arc. nasa. gOv/projectsyremote _Agent/( 但 这 些 资料 对 于 完成 本 题 并 不 是 必 
需 的 ) 。 

5-14 展示 了 DS] 发 动机 设计 中 的 一 个 部 分 。 为 了 实现 在 发 动机 的 推力 ， 必 须 注入 燃料 和 和 氧 
化 剂 。 为 了 确保 其 在 多 个 故障 (主要 是 阀门 卡 住 或 者 失效 ) 存 在 时 仍 能 正常 工作 ， 整 个 设计 存在 了 
大 量 的 元 余 。 注 意 其 值 是 黑 或 者 白 以 及 是 否 有 了 疗 门 与 这 个 任务 无 关 。 

每 一 个 阀门 可 以 是 状态 良好 (或 者 失效 ) 和 可 以 被 打开 (或 者 不 能 被 打开 )。 我 们 的 任务 目标 是 
公理 化 这 个 问题 ， 这 样 我 们 要 完成 两 个 任务 : 

(a) 在 发 动机 中 ， 观 察 到 了 缺乏 推动 力 ， 而 且 观 察 给 出 了 哪些 风门 是 打开 的 ， 使 用 基于 一 致 性 的 
判断 ， 确 定 哪些 可 能 是 错误 的 。 
(b) 给 定 有 推动 力 的 目标 ， 给 定 某 些 阀 门 是 状态 良好 的 知识 ,确定 哪些 阀门 是 应 该 被 打开 的 。 

对 于 其 中 的 每 一 个 问题 ， 必 须 考 虚 在 知识 库 中 的 子 句 是 什么 ， 假 说 是 什么 。 

原子 应 该 是 以 下 形式 的 : 

。 如 果 V 是 打开 的 ，open_V 为 真 。 该 原子 为 open_vl1，open_v2， 等 等 。 

。 如 果 站 正常 工作 ， 则 为 ok_V 为 真 。 

。 如 果 V 已 经 通过 燃气 进行 了 加 压 ， 则 pressurized_V 为 真 。 你 应 该 假设 pressurized_tl 和 pres- 212 
surized_t2 AH. 

。 MRAM ECARD THA, W thrust E AR. 

。 如 果 在 任何 一 个 发 动机 中 都 没有 推力 存在 ， 则 thrust HH. 

。 如 果 没 有 推力 ， 则 nothrust 为 真 。 

为 了 确保 其 为 可 控制 的 ， 仅 仅 写 出 对 于 发 动机 el 的 输入 规则 。 使 用 AILog 通过 一 些 实例 测试 
你 的 代码 。 


说 明 

far] vi~vl6 

MR SALI Th ~12 
引擎 el~e2 







图 5-14 深 空 一 号 引擎 设计 


5. 11 考虑 在 前 面 的 问题 中 使 用 潮 因 判断 方法 。 
假设 如 下 : i 
。 阀门 可 以 是 打开 或 者 关闭 的 ， 对 于 其 中 的 一 些 阀门 ， 我 们 知道 它们 是 否 是 打开 的 ， 对 于 另 一 些 
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我 们 不 知道 。 

。 一 个 阔 门 可 以 是 状态 良好 的 ， 在 这 种 情况 下 如 果 阁 门 是 打开 的 燃气 会 流入 ， 如 果 阁 门 是 关闭 的 
则 不 会 流入 ; 也 可 以 是 损坏 的 ， 在 这 种 情况 下 燃气 将 永远 不 会 流 人 ; 可 以 是 卡 住 的， 在 这 种 情 
况 下 燃气 是 否 流 入 与 阀门 是 打开 的 还 是 关闭 的 无 关 ; 或 者 是 泄漏 的 ， 在 港 泼 状 态 中 ， 燃 气 将 会 
泄露 到 阀门 外 面 而 不 是 流入 。 

*。 有 三 种 燃气 传感器 可 以 确定 燃气 是 否 泄漏 (但 不 能 确定 是 哪 种 燃气 ); 第 一 个 燃气 传感器 检测 最 
右边 的 阀门 (v1，…，w4) 中 的 燃气 ， 第 二 个 燃气 传感器 检测 中 间 的 阀门 (v5，…，w 12)， 第 三 
个 燃气 传感器 检测 最 左边 的 闪 门 (v13，…，v16)。 

Ca) 对 这 个 领域 知识 进行 公理 化 ， 以 便 系统 可 以 解释 引擎 el 是 否 进行 推动 ， 并 且 可 以 解释 每 一 

个 传感器 的 气体 状态 。 比 如 ， 可 以 解释 为 什么 el 在 推动 。 可 以 解释 为 什么 el 没有 推动 ， 
为 什么 通过 第 三 个 传感器 有 气体 被 检测 到 。 

(Cb) 在 一 些 非 平凡 的 例子 上 测试 你 的 公理 化 结果 。 

Co) 对 于 一 些 查 询 存 在 很 多 种 解释 。 如 何 减少 或 者 管理 解释 的 数量 使 得 溯 因 判断 更 加 有 效 。 
AILog 中 的 askables 是 询问 用 户 的 原子 ，assumables 是 在 结果 中 选择 的 原子 。 假 设 你 在 公理 化 你 家 
中 的 电路 ， 且 你 有 和 例 5-3 相 类 似 的 公理 化 方法 。 现 在 你 要 为 一 个 想 要 承租 你 的 房子 的 新 租 客 公 
理化 该 电路 域 ， 他 可 能 想 要 确定 在 电路 中 有 没有 存在 错误 。 

有 一 些 原 子 是 你 可 能 知道 的 规则 的 约束 ， 一 些 是 该 租 客 知 道 的 ， 还 有 一 些 是 你 们 两 人 都 不 知 
道 的 。 将 这 些 原 子 命题 分 为 三 个 类 别 ， 指 出 哪些 应 该 是 可 询问 的 ， 哪 些 是 可 假定 的 ， 并 指出 在 你 
的 划分 下 将 会 对 结果 产生 哪些 作用 。 
考虑 在 互联 网 上 使 用 变化 信息 进行 互动 的 采购 Agent 中 ， 使 用 完整 性 约束 和 基于 一 致 性 诊断 。 为 
了 解决 某 问题 ， 该 采购 Agen 将 会 针对 事实 询问 一 系列 的 问题 ， 然 而 ， 信 息 资 源 有 时 是 错误 的 。 
在 用 户 获 取 矛 盾 信 息 时 ， 如 何 自动 确定 哪些 信息 是 错误 的 非常 有 用 。 

在 本 题 中 ,我们 考虑 如 何 使 用 完整 性 约束 和 假设 来 确定 不 同 的 信息 资源 中 显示 出 的 错误 信息 。 

在 本 题 中 ， 我 们 使 用 无 意义 的 符号 如 a、b、c…， 但 是 在 实际 系统 中 ， 这 些 符号 可 能 存在 着 关 
联 性 ， 比 如 a 意味 着 “在 夏威夷 有 滑雪 板 ”， 而 = 意味 着 “在 夏威夷 没有 滑雪 板 ”， 或 者 a RRA 
蝶 什 么 都 不 吃 ”， 而 = 意味 着 “蝴蝶 吃 花蜜 ”"。 我 们 在 本 题 中 使 用 无 意义 的 符号 ， 因 为 计算 机 不 需要 
获得 其 符号 代表 的 意义 ， 而 是 只 需要 将 其 作为 无 意义 的 符号 来 处 理 即 可 。 

假设 存在 下 面 的 信息 资源 和 相关 信息 : 
资源 Si: 资源 $i 要 求 下 面 的 子 句 为 真 : 
a<-h 
d+c 
资源 Sz: 资源 Sz 要 求 下 面 的 子 句 为 真 : 


ed 


资源 ss: 资源 ss 要 求 下 面 的 子 句 为 真 : 
h<—d 

资源 so: 资源 s 要 求 下 面 的 子 句 为 真 : 
a+b Ne 

bec 

资源 ss: 资源 ss 要 求 下 面 的 子 句 为 真 : 
SA 了 人 7 

你 自己 : 假设 你 知道 以 下 的 子 句 为 真 : 
falsesa Àz 

c 


k 
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由 于 它们 在 一 起 就 产生 了 了 矛盾， 所 以 不 是 每 一 个 资源 都 可 信 。 
(a) 通过 用 户 在 AILog 中 使 用 假设 来 编码 知识 。 为 了 使 用 其 中 某 一 资源 提供 的 子 句 ， 你 必须 假设 
该 资源 是 可 信 的 。 
(b) 使 用 程序 来 找到 哪些 是 可 信 资 源 的 冲突 (找到 你 可 以 确定 为 false 的 冲突 ) 。 
Cc) 假设 你 想 要 假定 尽 可 能 少 的 资源 是 不 可 信 的 。 对 于 哪 一 个 单一 的 资源 ， 如 果 其 为 不 可 信和 的 ， 
将 会 导致 蔬 盾 ? (假设 其 他 的 资源 都 是 可 信和 的 。) 
Cd) 哪 两 个 资源 会 是 导致 矛盾 的 原因 ? 假设 其 他 资源 都 是 可 信 的 ， 在 该 情况 下 两 个 资源 中 的 任何 
一 个 都 不 会 导致 矛盾 。 
假设 你 在 某 公 司 任 职 ， 该 公司 建立 了 一 种 在 线 教学 工具 。 由 于 你 上 过 人 工 智 能 课程 ， 你 的 老板 希 
望 知 道 你 基于 考虑 后 对 各 种 问题 提出 的 意见 。 
他 们 计划 为 讲授 基础 物理 (如 力学 和 电磁 学 ) 建 立 一 套 智 能 教学 系统 。 系 统 必 须 完 成 的 一 个 任 
务 是 来 判断 学 生 可 能 出 现 的 错误 。 
对 于 下 面 的 陈述 ， 使 用 适当 的 语言 回答 每 一 个 问题 。 如 果 回 答 的 部 分 并 没有 被 提问 过 或 者 只 
有 一 个 问题 被 问 到 却 给 出 了 多 于 一 个 的 答案 时 ， 可 能 会 惹恼 你 的 老板 。 老 板 也 不 喜欢 专业 术语 ， 
所 以 请 使 用 简单 的 语言 。 
老板 听 说 过 基于 一 致 性 的 判断 和 湖 因 推理 判断 ， 但 是 并 不 想 知道 它们 在 建立 讲授 基础 物理 智 
能 教学 系统 中 具体 涉及 的 内 容 。 
(a) 解释 在 基于 一 致 性 的 判断 中 ， 需 要 哪些 关于 物理 和 关于 学 生 的 知识 。 
Cb) 解释 在 泣 因 推理 判断 中 ， 需 要 哪些 关于 物理 和 关于 学 生 的 知识 。 
Co) 在 该 领域 中 便 用 溯 因 推理 判断 比 使 用 基于 一 致 性 的 诊断 的 优势 有 哪些 ? 
(d) 在 该 领域 中 使 用 基于 一 致 性 的 诊断 比 使 用 湖 因 推理 判断 的 优势 有 哪些 ? 
考虑 图 5-11 中 自 底 向 上 和 否定 即 失 败 验证 程序 。 假 设 我 们 想 要 逐渐 增加 和 删除 子 句 。 随 着 子 句 的 增 
加 ，C 会 如 何 变化 ? 随 着 子 句 的 移 除 ，C 会 如 何 变化 ? 
假设 你 在 实现 一 个 自 底 向 上 Horn 子 句 解释 程序 ， 并 且 你 希望 增加 子 句 或 者 假说 。 当 子 句 增 加 时 ， 
最 小 解释 将 会 受到 何 种 影响 ? 当 增 加 假说 时 最 小 解释 会 受到 何 种 影响 ? 
5-15 显示 了 一 个 简化 了 的 无 人 航天 器 (se) 与 地 面 控 制 中 心 (gc) 之 间 的 元 余 通 信 网 。 有 两 种 
高 带宽 (高 增益 ) 的 链接 ， 其 通过 中 继 卫 星 (s1， 弛 ) 与 不 同 的 地 面 天 线 (al，a2) 联 系 。 此 外 ， 
也 有 一 个 直接 的 ， 低 带宽 ( 低 增 益 ) 的 链接 ， 是 地 面 控制 中 心 的 天 线 (a3) 和 飞船 进行 的 联系 。 
低 增 益 链 路 受 大 气 影响 扰动 ， 如 果 飞 船 的 低 增益 发 射 机 (sc_lig) 和 地 面 天 线 3 都 是 良好 的 ， 且 
没有 扰动 (no_dist)， 则 其 就 进行 工作 。 如 果 飞 船 的 高 增益 发 射 器 (sc_hg)、 卫 星 天 线 (s1_ant， 
s2_ant) 、 卫 星 发 射 器 (5s1_trans，s2_trans) 和 地面 天 线 (al1，a2) 都 是 工作 正常 的 ， 则 高 增益 链 
接 会 一 直 工 作 。 
为 了 简单 起 见 ， 我 们 认为 飞船 仅仅 通过 这 些 渠 道 与 地 面 控制 中 心 传递 信息 。 
以 下 知识 库 是 我 们 所 感 兴趣 的 部 分 通信 网 络 的 形式 化 表示 : 
send_signal_lg_sc<-ok_sc_lg | alive_sc 
send_signal_hg_sc«-ok_sc_hg \ alive_sc 
get_signal_sl|<-send_signal_hg_sc \ ok_s\_ant 
get_signal_s2«-send_signal_hg_sc \ ok_s2_ant 
send_signal_s1<-get_signal_s1 \ ok_s|_trans 
send_signal_s2<-get_signal_s2 N ok_s2_trans 
get_signal_gc~<-send_signal_s1 \ ok_al 
get_signal_gc~<-send_signal_s2 \ ok_a2 
get_signal_gc<-_send_signal_lg_sc \ ok_a3 A no_dist 
由 于 地 面 中 心 没 有 从 飞船 接收 到 信号 (no_signal_gc)， 地 面 中 心 非常 紧张 。 可 以 明确 地 知道 所 
有 的 地 面 天 线 是 正常 工作 的 ( 即 ok_al1、ok_a2 H ok_a3)， 并 且 知 道 卫 星 sl 的 发 射 器 也 是 正常 工作 
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的 (ok_sl_trans)。 但 不 能 确定 飞船 、 飞 船 发 射 器 、 卫 星 天 线 、s2 的 发 射 器 和 大 气 扰动 的 状态 。 


SC 


~ 
~ 
~ 
~ 
~ 
~ 
~ 
~ 
~ 






下 





图 5-15 空间 通信 网 络 


(a) 给 出 一 组 假说 和 一 个 完整 性 约 东 来 为 这 个 情况 建 模 。 
Ch) 使 用 Ca) 问题 中 得 出 的 假说 和 完整 性 约束 ， 哪 些 是 最 小 约束 ? 
O 针对 给 定 的 情况 ， 基 于 一 致 性 的 判断 是 什么 ? 换 名 话说， 哪些 可 能 的 违反 假设 的 组 合 导 致 了 


地 面 中 心 不 能 接收 到 从 飞船 发 来 的 信号 ? 
(a) 解释 为 什么 美国 航空 航天 局 希望 针对 习题 5. 17 的 领域 问题 ， 使 用 潮 因 推理 而 不 是 使 用 基于 一 


致 性 的 判断 。 

(b) 假设 大 气 扰动 (dist) 可 能 会 在 低 带宽 信号 中 导致 静态 信号 或 者 无 信号 情况 。 为 了 获得 静态 信 
号 ， 天线 a3 和 飞船 的 低 带 宽 发 射 器 sc_le 都 必须 工作 。 如 果 a3 或 者 sc_lg 不 工作 或 者 sc 已 经 
失效 ， 则 没有 信号 。 如 果 我 们 需要 解释 可 能 观察 到 的 命题 no_signal_gc、get_signal_gc， 或 
static_gc， 那 么 必须 需要 在 习题 5. 17 所 示 的 知识 库 中 加 入 什么 规则 和 假设 ?你 可 以 忽视 高 带 


l 宽 链 接 。 你 可 以 创造 任何 你 需要 的 符号 。 
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不 确定 推理 





值得 注意 的 是 ， 一 门 起 源 于 对 机 会 游戏 考量 的 科学 应 该 成 为 人 类 知识 领域 最 重要 的 研 
究 对象 …… 生 活 中 最 重要 的 问题 ， 绝 大 部 分 其 实 只 是 概率 问题 ……。 
概率 论 归结 到 底 不 过 是 计算 常识 而 已 。 





Pierre Simon de Laplace[ 1812 ] 


Agent 总 是 被 迫 在 不 完整 信息 的 基础 上 做 出 决定 ， 即 便当 Agent 感知 这 个 世界 来 试图 
找 出 更 多 信息 时 ， 它 也 很 少 发 现世 界 的 确切 状态 。 就 像 机 器 人 不 会 确切 地 知道 目标 所 在 ， 
医生 不 会 确切 地 知道 患者 究竟 哪里 有 问题 ,老师 不 会 确切 地 知道 学 生理 解 了 什么 。 当 
Agent 必 须 做 出 决定 时 ， 它 们 不 得 不 使 用 他 们 所 拥有 的 所 有 信息 。 本 章 主要 考虑 不 确定 性 
推理 : 通过 对 世界 的 观察 来 确定 这 个 世界 上 什么 是 正确 的 。 第 9 章 中 将 这 作为 不 确定 性 作 
用 下 的 基础 ， 在 这 种 环境 中 ，Agent 必须 决定 采取 什么 样 的 行动 ， 即 使 它 不 能 准确 地 预测 
其 行动 的 结果 。 本 章 以 概率 开始 ， 通 过 适当 的 独立 性 假设 展示 出 怎样 表示 这 个 世界 ， 并 且 
说 明 怎 样 通过 这 些 表 示 进 行 推理 。 


6.1 概率 


为 了 做 出 一 个 好 的 决定 ，Agent 不 能 简单 地 假设 这 个 世界 是 什么 样子 ， 更 不 能 根据 这 
些 假 设 做 出 行动 。 它 必须 考虑 多 种 可 能 的 突 发 事件 和 它们 的 可 能 性 。 考 虑 下 面 的 例子 。 

【 例 6-11] 许多 人 认为 在 汽车 行驶 中 系 好 安全 带 是 明智 的 ， 因 为 在 事故 中 ， 系 安全 带 
可 降低 严重 伤害 的 危险 。 考 虑 一 个 会 做 出 假设 并 根据 这 些 假设 做 出 决定 的 Agent。 如 果 
Agent 假 设 不 会 发 生意 外 ， 它 就 不 会 为 系 安全 带 带 来 不 便 而 烦恼 。 如 果 它 假定 会 发 生 事故 ， 
它 便 不 会 出 行 。 故 而 在 这 两 种 情况 下 都 不 会 系 好 安全 带 ! 一 个 更 加 智能 的 Agent BRAK 
全 带 ， 因 为 如 果 它 发 生意 外 ， 系 安全 带 所 造成 的 不 便 远 不 如 它 受 伤 或 死亡 增加 的 风险 那样 
重要 。 它 不 会 因为 担心 发 生 事 故而 不 出 门 ， 因 为 移动 远 比 基于 极度 谨慎 而 不 出 门 带 来 更 多 
的 好 处 ， 即 使 会 冒 点 发 生 事 故 的 风险 。 决 定 是 否 走出 去 、 是 否 系 安全 带 取决 于 发 生意 外 的 
可 能 性 ， 在 意外 中 系 好 安全 带 能 带 来 多 少 帮助 ， 系 安全 带 带 来 的 不 便 和 走出 去 的 重要 性 。 
不 同 的 Agent 可 能 做 出 不 同 的 权衡 。 有 些 人 不 系 安全 带 ， 有 些 大 基于 会 发 生意 外 的 风险 而 
选择 不 出 去 。 < 

不 确定 性 推理 已 经 在 概率 论 和 决策 理论 领域 有 所 研究 ， 概 率 就 是 赌博 (gambling) 的 运 
算 。 当 Agent 做 出 决定 并 且 其 行动 的 结果 包含 不 确定 性 时 ， 它 就 是 在 对 结果 进行 赌博 。 然 
而 ， 与 在 赌场 的 赌 徒 不 同 ，Agent 不 能 选择 退出 决定 不 赌 ， 无 论 它 做 什么 都 涉及 不 确定 性 
和 风险 (包括 它 什么 都 不 做 的 情况 ) 。 如 果 它 不 考虑 概率 ， 它 最 终 会 在 赌博 中 败 给 考虑 概率 
的 Agent。 当 然 ， 这 并 不 意味 着 ， 做 出 最 好 的 决定 就 能 保 赢 。 

我 们 中 的 许多 人 学 习 的 概率 论 为 抛 硬币 或 是 掷 仙 子 ， 尽 管 这 是 一 个 提出 概率 论 的 好 方 
法 ， 但 实际 上 概率 可 以 用 到 比 硬 币 和 仍 子 丰富 得 多 的 应 用 中 。 在 一 般 情况 下 ， 我 们 希望 有 
一 个 用 于 信念 的 演算 可 以 用 来 决策 。 
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一 种 观点 将 概率 看 做 是 对 信念 的 度量 ,而 不 是 频率 ,为 人 们 所 熟知 的 是 贝 叶 斯 概率 
(bayesian probability) 或 主观 概率 (subjective probability) 。 主 观 这 一 术语 不 意味 着 任意 ， 
而 是 倾向 于 “主题 ”>。 例 如 ， 假 设 有 三 个 Agent，Alice、Bob 和 Chris, EMHRB—THRT. 
假设 Alice 观察 的 结果 是 “6”， 并 告诉 Bob 结果 是 偶数 ， 而 Chris 对 结果 一 无 所 知 。 在 这 种 
情况 下 ，Alice 对 结果 是 “6? 的 概率 为 1，Bob 对 结果 是 “6 的 概率 为 1/3( 假 设 Bob 相信 
Alice， 并 且 认 为 所 有 偶数 的 概率 是 相同 的 )，Chris 的 概率 为 1/6。 由 于 具有 不 同 的 知识 导 
致 它们 的 概率 不 同 ， 这 个 概率 是 此 次 掷 既 子 的 特定 结果 ， 而 不 是 掷 山 子 的 某 些 通用 事件 。 
对 于 其 他 投 硬币 事件 的 结果 ， 这些 Agent 可 以 具有 相同 或 不 同 的 概率 。 

另 一 种 是 频率 论 (frequentist) 观 点， 概率 是 长 期 运行 重复 事件 的 频率 。 贝 叶 斯 概率 适 
合 于 智能 Agent， 因 为 在 特定 情况 下 信念 度量 是 决策 所 需要 的 。Agent 不 会 遇 到 一 般 事 件 ， 
但 必须 基于 它们 遇 到 的 特殊 情况 的 不 确定 性 做 出 决定 。 

概率 论 可 以 被 定义 为 知识 如 何 影响 信念 的 研究 。 对 某 个 命题 的 相信 程度 ， 可 以 利用 
0 和 1 之 间 的 数 来 衡量 。 概 率 a 为 0 表示 命题 被 认为 肯定 是 假 的 (没有 新 的 证 据 可 以 动 播 这 
种 信念 )， 概 率 为 1 意味 着 命题 被 认为 肯定 是 正确 的 。 使 用 0 和 1 纯粹 是 一 个 惯例 。 

采用 概率 的 信念 观点 并 不 意味 着 统计 数据 将 被 忽略 。 对 过 去 发 生 的 事件 所 产生 的 统计 
数据 是 有 重要 影响 力 的 知识 ， 并 且 可 以 用 于 更 新 信念 (请 参阅 第 7 章 如 何 学 习 概 率 )， 

我 们 假设 的 不 确定 性 是 认识 论 Cepistemological) 上 的 ， 与 Agent 对 世界 的 认识 有 关 ， 
而 不 是 本 体 论 (ontological) 的 ， 即 世界 是 怎样 的 。 我 们 假设 Agent 关于 命题 真实 性 的 知识 
是 不 确定 的 ， 没 有 假设 真实 的 程度 。 例 如 ， 如 果 有 人 告诉 你 菜 个 人 非常 高 ， 你 知道 他 有 一 
定 的 高 度 ; 你 对 于 他 的 真实 高 度 只 是 有 一 个 模糊 的 概念 。 

如 果 Agent HEA a 的 概率 是 大 于 0 且 小 于 1 的， 这 并 不 意味 着 在 某 种 程度 上 4 为 
真 ， 而 是 Agent 不 知道 a 是 真 还 是 假 。 概 率 反 映 出 Agent 无 知 的 部 分 。 

在 本 章 其 余 的 部 分 ， 我们 忽略 模拟 的 拥有 概率 的 Agent 本 身 ， 只 考虑 概率 。 


6. 1.1 概率 的 语义 


概率 论 是 建立 在 世界 和 变量 作为 约束 满足 的 相同 的 基础 上 的 ( 见 4.2 节 )。 概 率 度 量 可 
能 的 世界 ， 不 带 有 去 除 菜 些 世界 并 把 每 个 其 他 的 世界 看 成 是 可 能 世界 的 某 些 约束 。 概 率 论 
中 涉及 的 变量 为 随机 变量 (random variable)， 随 机 变量 这 一 术语 有 点 用 词 不 当 ， 因 为 它 既 
不 是 随机 的 也 不 是 变量 。 正 如 4. 2 节 所 讨论 的 ， 变 量 可 以 描述 世界 ， 一 个 世界 对 应 于 对 每 
个 变量 的 一 种 赋值 。 反 过 来 ， 变 量 也 可 以 由 世界 来 描述 ， 一 个 变量 是 一 个 函数 ， 该 函数 对 
每 个 世界 返回 一 个 值 。 

首先 ， 我 们 定义 概率 为 世界 集合 的 一 种 度量 ， 然 后 定义 概率 是 关于 命题 的 ， 最 后 才 是 
关于 变量 的 。 

世界 的 概率 度量 (probability measure) 是 从 世界 集合 到 非 负 实数 集 的 一 个 函数 ww， 使 得 

。 MEO, MQ, 是 世界 的 不 相交 集合 ( 即 如 果 A N=, WA AGO Ua.) = 

了 
。 MRO 是 所 有 世界 的 集合 ,jC(Q)=1。 
需要 注意 的 是 ， 只 是 习惯 上 使 用 1 作为 全 集 的 概率 ， 同 样 也 可 以 使 用 100。 

当 一 些 变 量 有 无 穷 的 定义 域 或 是 当 无 穷 多 个 变量 存在 时 ， 存 在 无 穷 多 个 世界 是 可 能 
的 。 当 存在 无 穷 多 个 世界 时 ， 我 们 并 不 需要 度量 Q 的 所 有 子 集 一 一 只 需 度量 可 以 用 某 种 语 
言 描述 的 集合 ， 假 设 这 种 语言 允许 我 们 描述 交集 、 并 集 、 补 集 。 通 过 这 些 操作 的 所 描述 的 
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子 集 的 集合 具有 数学 家 称 之 为 代数 (algebra) 的 结构 。 

对 于 世界 w 来 说 ， 可 以 通过 定义 jy(w) 二 yu({w)) 把 度量 扩展 到 世界 上 。 当 存在 有 限 
多 的 世界 时 ,个别 世 界 的 度量 足以 定义 jy。 当 存 在 无 限 多 的 世界 时 ， 可 能 个 别 世 界 的 度量 
不 足以 定义 y， 或 者 说 对 个 别 世 界 进行 度量 是 没有 意义 的 。 

[B 6-2) 假设 世界 对 应 一 个 特定 人 的 可 能 实 值 高 度 ， 以 厘米 为 单位 。 在 这 个 例子 中 ， 
有 无 限 多 可 能 的 世界 。 高 度 集合 在 范围 L175，180) 内 的 概率 为 0.2， 在 范围 [180，190) 内 
的 概率 为 0. 3。 那 么 在 范围 L175，190) 内 的 概率 为 0.5。 然 而 ， 任 何 特定 高 度 的 度量 可 以 
HF. < 

如 5. 1 节 中 描述 的 ， 原 始 命题 是 将 一 个 值 赋 给 变量 。 命 题 是 由 原始 命题 通过 使 用 逻辑 
连接 词 连接 而 成 。 下 面 我 们 就 利用 这 个 性 质 来 定义 变量 的 概率 分 布 。 

命题 a 的 概率 记 作 Pl(a)， 是 可 能 世界 集中 使 a 为 真 的 集合 的 度量 。 即 

P(a)=pUw : w|=a}) 
其 中 ，o Fa 代表 在 世界 w Pa 为 真 。 因 此 ，P(o) 是 世界 集中 a 为 真 的 度量 。 

这 里 使 用 的 符号 F 不 同 于 前 面 章节 中 使 用 的 ( 见 5.1.2 节 )。 在 前 面 章节 中 ， 符 号 的 左 
侧 表示 的 是 一 个 知识 库 ; 这 里 ， 左 侧 表示 一 个 世界 。 其 具体 的 含义 从 上 下 文 来 看 应 该 是 明 
确 的 。 

随机 变量 X 上 的 概率 分 布 (probability distribution)P(X)， 是 一 个 将 X 域 映 射 为 实数 
的 函数 ， 使 得 给 出 一 个 值 z-E dom(X)，P(z) 是 命题 X=z 的 概率 。 我 们 也 可 以 类 似 地 定 
义 一 组 变量 的 概率 分 布 。 例 如 ，P(X，Y) 是 X AY 上 的 概率 分 布 ， 即 已 (X 一 工 Y=y), 
其 中 的 zE dom(X)，zEdom(X)， 它 有 值 PCX 王 rzAY 一 y) ， 其 中 X= 工 AY 一 y 是 一 个 命 
题 ， 己 是 命题 的 函数 。 当 把 概率 集合 看 成 是 一 个 整体 时 ， 我 们 将 使 用 概率 分 布 。 


6. 1.2 概率 公理 


前 一 节 给 出 了 概率 的 语义 定义 。 我 们 也 可 以 给 出 一 个 概率 的 公理 化 定义 ， 指 出 在 信念 
演算 中 我 们 可 能 需要 的 属性 公理 。 


概率 密度 函数 


当 域 连续 时 (例如 ， 一 个 实数 子 集 )， 概 率 有 时 根据 概率 密度 函数 来 定义 。 概 率 密 度 函 
数 提供 了 一 种 度量 可 能 世界 集合 的 方式 。 这 种 度量 根据 概率 密度 函数 的 积分 来 定义 ， 积 分 
正式 地 定义 为 离散 化 越 来 越 细 时 它 的 极限 值 。 

在 这 本 书 中 我 们 唯一 使 用 的 非 离散 概率 分 布 的 域 是 实数 线 。 在 这 种 情况 下 ， 每 个 实 
数 都 对 应 一 个 可 能 世界 。 概 率 密度 函数 (probability density function) 我 们 记 为 方 ， 它 是 一 
个 从 实数 到 非 负 实数 积分 为 1 的 函数 。 一 个 值 在 a 和 5 之 间 的 实 值 随机 变量 六 的 概率 给 
出 如 下 : - 


Pa<X<b)= | coadx 

参数 分 布 (parametric distribution) 是 一 个 其 密度 函数 可 以 由 公式 来 描述 的 分 布 。 虽 然 
并 非 所 有 的 分 布 都 可 以 用 公式 描述 ， 但 是 所 有 我 们 能 够 表示 的 分 布 都 可 以 。 有 时 统计 学 家 
使 用 术语 参数 化 ， 代 表 那 些 可 以 由 一 组 固定 的 、 有 限 数 量 的 参数 来 描述 的 分 布 。 非 参数 化 
分 布 (non-parametric distribution 的 参数 数目 是 不 国定 的 。( 奇 妙 的 是 ， 非 参数 化 通常 意味 
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着 “许多 参数 ”。) 
一 个 常见 的 参数 分 布 是 均值 为 w， 方 差 为 中 的 正 态 分 布 或 高 斯 分 布 Cnormal or Gaussian 
distribution) ， 定 义 为 


1 


1 ENT 
p(X) = ep Ope) 
vV 2na 


其 中 ，o 是 标准 偏差 。 用 正 态 分 布 测量 误差 ， 此 处 大 为 平均 值 ，c 为 值 的 偏差 。 册 拉 普 拉 
斯 [1812 | 证 明 的 中 心 极限 定理 (central limit theorem) 表 明 ， 独 立 误差 的 总 和 将 带 近 高 斯 分 
布 。 这 和 其 他 优异 的 数学 特点 使 得 正 态 分 布 被 广泛 使 用 。 

其 他 分 布 ， 包 括 贝 塔 和 狄 利克 雷 分 布 ， 将 在 不 确定 性 学 习 一 节 中 讨论 。 


假设 已 是 一 个 将 命题 转化 为 实数 的 函数 ， 满 足以 下 三 个 概率 公理 (axiom of probability) : 

公理 1 对 于 任意 命题 a,， 0 过 Pl(a)。 也 就 是 说 ， 任 何 命题 的 概率 不 能 为 负数 。 

公理 2 ”如果 为 重 言 式 ， 则 P(r) 二 1。 也 就 是 说 ,如果 tt 对 所 有 可 能 的 世界 均 为 真 ， 
则 其 概率 为 1。 

公理 3 当 a 和 PB 互 为 对 立 命题 时 ， 也 就 是 说 ， 当 一 (a 八 B) 为 重 言 式 时 ，P(laV 有 ) 一 
P(a) 十 P(p8) 。 即 如 果 两 个 命题 不 能 同时 为 真 (它们 互 斥 )， 其 析 取 的 概率 是 它们 的 概率 
之 和 。 

这 些 公理 具有 直观 属性 ， 使 我 们 获得 合理 的 信念 和 度量。 如果 信 和 念 度量 遵从 这 些 直 观 的 
公理 ， 则 不 论 它 是 否 是 实际 频率 计数 ， 都 符合 概率 论 。 这 些 公理 形成 一 个 合理 而 完备 的 公 
理化 概率 意义 ， 合 理性 是 指 这 些 公理 被 用 可 能 世界 语义 定义 的 概率 遵循 ， 完 备 性 是 指 任何 
遵循 这 些 公理 的 信念 系统 都 具有 概率 语义 。 

命题 6. 1 如 果 存 在 有 限 数 目的 有 限 离 散 随机 变量 ,公理 1]、2、3 关于 语义 是 合理 的 
和 完备 的 。 

这 些 公 理 的 语义 真实 性 是 很 容易 检查 的 。 换 句 话 说 ， 你 可 以 使 用 这 些 公理 来 从 世界 概 
率 计算 任何 概率 ， 因 为 两 个 世界 中 的 描述 是 互 斥 的 。 其 完全 的 证 明 留 给 读者 作为 练习 。 

命题 6.2 对 于 所 有 命题 a 和 B， 以 下 都 成 立 : 

(a) 否定 命题 : 

P( 7a) =1—P(a) 
(b) 如 果 aeb, N P(a) 二 P(B)。 也 就 是 说 ,逻辑 上 等 价 的 命题 具有 相同 的 概率 。 
(c) 情况 推理 : 

Pla) =P ADH PaA 7p) 
(d) 如 果 V 是 域 DD 中 的 一 个 随机 变量 ， 那 么 对 于 所 有 命题 ua， 

Pla) = 2 Pla AV=d) 


(e) 非 互 斥 命题 的 析 取 : 
PaV 有 一 P(w 十 P(D) 一 Pa 人 有 ) 
WEAR: 
(a) 命题 aV -a 和 一 (a 人 -a) 是 重 言 式 。 因 此 ,1 二 PlaV 7a) 二 Pla) 十 Pl(Ta)% 重新 排 
列 给 出 了 所 需 的 结果 。 
(b) 如果 a<>B8， 则 aV-8 是 重 言 式 ， 所 以 PUVAS. a 和 -8 是 矛盾 命题 ， 所 以 可 
以 由 公理 3 给 出 P(ecV-Bp) 王 PCa) 十 P(-p8)。 由 (a 有 了 (”B) 王 1 一 P(9)。 因 此 ，Pko) 十 1 一 


2 
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P(®)=1, P (oa 一 PCp) 。 

(c) 命题 ae*((aAB) VCaA BNA CCAD ACA np8)) 是 重 言 式 。 因 此 ，P(a) = 
PUAaNBPV Cah 7P))=PCaAPt+Ph p. 

(d) 证 明 类 似 于 (c) 。 

(e) (aV Be((aV -8) VBD) 为 重 言 式 。 因 此 ， 

P(aV B)=P(UaV 7B) VB) =PCaV 78) + PCA) 

HOH, PlaA 72)=P(a)—PCaV B)。 因 此 ， 

PlaVPB)=P(a)—P(laAB) PB) a 


6.1.3 条 件 概率 


通常 情况 下 ， 我们 不 仅 想 知道 一 些 命题 的 先 验 概率 ， 而 且 想 知道 当 Agent 观察 到 新 证 
据 时 如 何 更 新 信念 。 

基于 命题 e 的 命题 h 的 信念 度量 称 作 给 定 e Fh 的 条 件 概率 (conditional probability), 
记 为 PChle)。 

公式 代表 Agent Xt Ft Hf A PR (observation) 的 合 取 ， 称 为 证 据 (evidence) 。 已 知 证 据 
e， 条 件 概 率 P(hle) 是 有 的 后 验 概率 (posterior probability), W PODÈ h KARE prior 
probability)， 与 P(h|irue) 相 同 ， 因 为 它 是 Agent 在 观察 到 任何 事物 之 前 的 概率 。 

后 验 概率 以 Agent 知道 的 特定 情况 下 的 一 切 为 条 件 ， 所 有 的 证 据 都 必须 以 获得 正确 的 
后 验 概率 为 条 件 。 

【 例 6-3] 对 于 诊断 助手 来 说 ， 患 者 的 症状 就 是 证 据 。 诊 断 Agent 在 了 解 特定 病人 之 
前 使 用 可 能 疾病 的 先 验 概率 分 布 。Agent 在 获得 一 些 证 据 之 后 会 使 用 后 验 概 率 。 当 Agent 
通过 与 患者 进行 讨论 ， 观 察 症 状 ， 或 得 到 实验 室 测 试 的 结果 后 获取 新 的 证 据 ， 它 必须 更 新 
它 的 后 验 概率 以 反映 新 的 证 据 。 新 证 据 是 旧 证 据 和 新 观察 的 结合 体 。 < 

【 例 6-4〗 机 器 人 从 其 传感器 接收 到 的 信息 是 它 的 证 据 。 当 传感器 有 噪声 时 ， 证 据 是 
那些 已 知 的 东西 ， 诸 如 由 传感器 接收 到 的 特定 模式 ， 而 不 是 有 一 个 人 站 在 机 器 人 面前 。 机 
器 人 可 能 对 世界 有 误解 ， 但 是 它 知道 收 到 了 什么 样 的 信息 。 < 

1. 条 件 概率 的 语义 

证 据 e 将 排除 所 有 可 能 与 其 不 匹配 的 世界 。 就 像 逻 辑 结 论 的 定义 ， 给 定 的 公式 。 SK 
择 使 其 为 真 的 可 能 世界 。 证 据 e 在 所 有 可 能 世界 上 推导 出 一 个 新 的 度量 x,.， 当 所 有 e AK 
时 ， 可 能 世界 的 度量 为 0， 其 余 的 世界 进行 标准 化 ， 所 以 世界 的 度量 总 和 为 1。 

在 这 里 ， 我 们 回顾 定义 条 件 概率 的 基本 原则 。 在 面 对 不 寻常 的 情况 时 ， 这 个 基本 定义 
通常 是 很 有 用 的 。 

度量 的 定义 遵循 以 下 两 个 直观 的 属性 : 

。 如 果 S 是 一 个 可 能 世界 的 集合 ， 对 于 某 个 常数 c( 下 面 推导 )， 所 有 使 e 为 真 的 度 

H, EMA p(S)=cXp(S). 
。 如 果 S 是 一 个 世界 集合 ， 所 有 使 e 为 假 的 度量 定义 为 w.(CS) 一 0。 


其 他 可 能 的 信念 度量 


证 明 其 他 信念 度量 具有 不 确定 性 。 例 如 ， 信 念 wAB 是 信念 w 和 信念 B 的 某 种 函数 ， 像 
这 样 的 信念 度量 叫做 组 合式 (compositional) 度 量 。 考 虑 单一 硬币 的 投 搓 就 可 以 看 出 为 什么 
这 种 度量 是 不 明智 的 。 比 较 一 下 两 种 情况 ， 第 一 种 情况 ，u RRRA N EALE A 
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代表 投掷 硬币 背面 朝 上 ， 第 二 种 情况 ，us 代表 投医 硬币 正面 朝 上 并 且 尿 代表 投掷 硬 币 正 
面 朝 上 。 对 于 这 两 种 情况 来 说 ， 信 念 m 似乎 与 信念 gaz， 信念 Bl 与 信念 B 相等 。 但 是 信和 念 
a 人 有 (其 实 是 不 存在 的 ) 不 同 于 信念 we 人 记 (与 wa 相等 )。 

条 件 概率 POSOFATREeK P(e 一 了 ) 的 概率 。 后 者 与 PCr-eVA HA, FAR 
Ree 为 假 所 解释 的 度量 。 例 如 ， 假 设 有 一 个 域 ， 鸟 很 稀少 ， 且 其 中 的 一 小 部 分 为 不 飞 的 
鸟 。 这 里 PC 一 flies |bird) 代 表 那 些 不 飞 的 鸟 的 比例 ， 通 常 非常 低 。P(bird> 一 flies) 与 
P(>bird\ 一 flies) 相 辣 ， 由 非 鸟 类 占 主导 地 位 ， 所 以 会 很 高 。 类 似 的 ， 概率 Plbird— 
flies) 也 很 高 ， 由 非 岛 类 占 主导 地 位 。 很 难 设想 一 个 蕴含 式 的 概率 是 一 种 延 当 的 或 是 有 用 
的 知识 。 


RNS jy 为 一 概率 度量 ， 所 以 如 果 0Q 是 所 有 可 能 世界 的 集合 ，jy. (0) 二 1。 因 此 ,1= 
DD=p Cet w Fe))tp({w: w| #e})=cX pw? w Fe})+0=cX P(e), 因此 c=1/P(e), 

已 知 证 据 e Fh 的 条 件 概率 用 jy 来 表示 ， 其 可 能 世界 中 为 真 ， 即 

P| = uw w ERD = py: wh A eD Huw wh A e)) 


uiatw Fh A GE TE Pth A e) 
P(e) P(e) 


上 面 所 给 出 的 最 后 的 形式 通常 作为 条 件 概率 的 定义 。 

本 章 的 其 余部 分 假设 ， 如 果 e 为 证 据 ，P(e) 二 0。 我 们 不 考虑 那些 命题 概率 为 0 的 情 
况 ( 比 如 ， 世 界 集合 的 度量 为 0) 。 

条 件 概 率 分 布 (conditional probability distribution) HAE AA., WA PAI, 其 中 外 和 
Y 是 变量 或 变量 集 : 对 于 X， 给 定 一 个 值 zxE dom(X) ， 对 于 Y， 给 定 一 个 值 yE dorm(Y)， 其 
给 出 P(X==zx|Y 二 y) 的 值 ， 后 者 是 命题 的 条 件 概 率 。 

条 件 概 率 的 定义 可 以 让 我 们 将 一 个 合 取 分 解 为 几 个 条 件 概 率 的 乘积 : 


命题 6. 3 〈 链 式 法 则 ) 条 件 概率 可 以 用 来 分 解 合 取 。 对 于 任意 命题 a1 ，…，an: 
Pla A az A Pro A a.) = Pla) X 
P(a | a.) X 


Plas | a: A a2) X 


Pla, |e: A A ami) 
= T[ Pt lar Av A am) 
=1 


这 里 如 果 乘 积 中 任意 项 为 0， 则 假定 上 式 中 右 侧 为 0( 即 使 其 中 有 些 是 未 定义 的 )。 

请 注意 ， 如 果 为 每 个 概率 增加 了 相同 的 证 据 ， 则 任何 有 关 非 条 件 概 率 的 定理 也 是 有 关 
条 件 概 率 的 定理 。 这 是 因为 条 件 概 率 度 量 是 另 一 种 概率 度量 。 

2. 贝 叶 斯 规则 

当 Agent 观察 到 新 的 证 据 时 ， 它 必须 更 新 其 概率 。 一 条 新 证 据 与 旧 证 据 相 结合 形成 一 
个 完整 的 证 据 集 。 


背景 知识 与 观察 


背景 知识 和 观察 之 间 的 不 同 之 处 在 5.3.1 节 中 描述 过 。 当 我 们 使 用 不 确定 性 推理 时 ， 
其 背景 模型 是 根据 概率 模型 来 描述 的 ， 观察 形成 条 件 性 证 据 。 
在 概率 中 有 两 种 方法 来 说 明 AR: 
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。 第 一 种 ，a 的 概率 为 1， 即 写 为 P(a) 一 1。 

。 第 二 种 ， 对 a 进行 条 件 限制 ， 把 a 放 在 条 件 栏 的 右 侧 ， 即 P(，|a)。 

第 一 种 方法 指出 ，a 在 所 有 可 能 世界 中 为 真 。 第 二 种 方法 指出 ，Agent 只 对 a 偶然 为 
真 的 世界 感 兴趣 。 

假设 Agent 知道 一 种 特定 的 动物 : 

Pl flies | bird) =0. 8 

P(bird | emu) =1, 0 

P( flies |emu) =0. 001 

WRE CHA ZB B (emu. —H#F SENS). WA HM Mie Plemu)=1, 
没有 概率 分 布 能 够 满足 这 四 项 要 求 。 如 果 在 所 有 可 能 世界 中 emu 为 真 ， 就 不 会 出 现 概率 为 
0.8， 即 有 个 别 会 飞 的 鸟 的 情况 。 相 反 ，Agent 必须 把 条 件 限制 在 事实 上 ， 即 emu 才 是 个 
别 情况 。 

为 了 建立 一 个 概率 模型 ， 知 识 库 的 设计 者 必须 考虑 到 一 些 知 识 ， 并 在 此 知识 基础 上 来 
建立 概率 模型 ， 后 续 所 获得 的 知识 必须 看 成 是 有 条 件 的 观察 。 

假设 Agent 在 一 段 时 间 内 所 观察 到 的 知识 是 由 命题 给 出 的 。Apgent 的 后 续 的 信念 状 
态 可 以 由 下 面 任意 一 项 来 模拟 : 

。 在 Agent 观察 k 之 前 ， 基 于 测度 jy 构建 一 种 概率 论 ， 然 后 以 证 据 上 为 条 件 ， 与 后 

续 证 据 e HAA. 
。 基于 测度 m 构建 一 种 概率 论 ， 来 模拟 Agent 观察 之 后 的 信念 ， 然 后 以 后 续 证 据 
e 作为 条 件 。 

无 论 使 用 哪 种 构建 ， 所 有 的 后 续 概 率 都 是 完全 相同 的 。 有 时 直接 构建 we 很 简单 ， 因 
为 其 模型 不 用 必须 满足 为 假 的 情况 。 然 而 ， 有 时 构建 yx 和 条 件 限制 & 相对 简单 。 

重要 的 是 ， 概 率 模型 是 合理 的 和 每 一 个 后 续 观 察 是 有 条 件 的， 两 者 是 连贯 的 。 


贝 叶 斯 规则 指明 Agent 应 该 怎样 基于 一 条 新 的 证 据 来 更 新 命题 的 概率 。 

假设 Agent 基于 观察 证 据 的 命题 h 的 当前 概率 为 了 (|A)， 随 后 观察 到 e。 对 户 的 新 
概率 为 PCh|le Ak)。 贝 叶 斯 规则 告诉 我 们 ， 随 着 新 证 据 的 获得 Agent 是 如 何 更 新 假定 的 
概率 的 。 

命题 6. 4( 贝 叶 斯 规则 ) 只 要 P(e|k) 关 0， 


_ Ple|h Ak) XxX POAh|k) 
Plhle Ak) = Pelb 


通常 隐 含 背景 知识 k, 在 这 种 情况 下 ， 如 果 P(e)0, 则 


Ple|h) X P(A) 
P(e) 


P(e|h) Zit h 04 AT BEE (likelihood), P(h) ARR h HATH (prior), Met MMM AK 
明 ， 后 验 概率 与 可 能 性 和 先 验 概率 的 乘积 成 正比 。 

证 明 : 合 取 的 交换 率 是 指 h 人 e 与 eh 相等， 对 于 给 定 的 它们 具有 相同 的 概率 。 有 
两 种 不 同 的 方式 使 用 乘法 规则 : 

P(hNe|k)=Pth|eAk) X Ple| k)=Ple| AAR) X PAR) 

定理 通过 P(e|k) 划 分 右 侧 部 分 。 m 

通常 情况 下 ， 贝 叶 斯 规则 是 用 来 比较 各 种 假设 (h;) 的 ， 可 以 注意 到 ， 分母 P(e|&) 是 
常数 ， 不 依赖 于 特定 的 假设 。 当 比较 假设 的 相对 后 验 概率 时 ， 可 以 忽略 分 母 。 为 了 获得 后 
验 概率 ， 分 母 可 以 通过 情况 推理 来 计算 。 如 果 H 是 独立 的 ， 并 且 代 表 了 所 有 可 能 假设 所 


Pth|e) = 
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”覆盖 的 命题 的 集合 ， 那 么 


Ple|k) = X) Ple A h| b = DPlelh A Rk) Xx P|k) 
hE H AEH 


因此 ， 贝 叶 斯 规则 的 分 母 是 通过 总 和 所 有 假设 的 分 子 而 获得 的 。 当 假设 空间 很 大 时 ， 
其 分 母 是 难以 计算 的 。 

一 般 情况 下 ， 估 计 PCe|hAk) 或 P|e 八 中 的 一 个 会 比 另 一 个 简单 得 多 。 当 一 个 域 
中 存在 因果 关系 的 理论 时 这 种 情况 时 常 发 生 ， 并 且 不 同 假设 的 预测 一 一 每 一 个 假说 h; 的 
P(e|h;Ak) 一 一 可 以 由 域 理 论 来 推导 。 

[B 6-5] 假设 诊断 助手 对 图 1-8 的 开关 s 的 诊断 感 兴趣 。 我 们 期 望 这 个 模型 能 够 指 
明 开 关 的 输出 关于 其 输入 、 开 关 的 位 置 以 及 开关 的 状态 是 怎样 一 个 函数 (可 以 是 工作 ， 短 
路 ， 安 装 上 下 颠倒 ， 等 等 )。 贝 叶 斯 规则 可 以 让 Agent 根据 给 定 的 其 他 信息 推断 出 开关 的 
状态 。 E] 

【 例 6-6] 假设 Agent 具有 火警 可 靠 性 的 信息 。 如 果 发 生火 灾 它 会 知道 警报 的 可 能 性 
是 多 大 。 如 果 有 警报 ， 它 必须 要 知道 发 生火 灾 的 概率 ， 它 可 以 使 用 贝 叶 斯 规则 : 

二 区 人 fire) X P( fire) 


P(alarm) 
假设 发 生火 灾 ， 其 Plalarm| fire) 是 报警 的 概率 。 它 是 对 警报 可 靠 性 的 度量 。P(fire) 是 
在 没有 其 他 信息 的 情况 下 发 生火 灾 的 概率 。 它 是 对 建筑 易 发 生火 灾 的 度量 。P(alarm) 是 
在 没有 其 他 信息 的 情况 下 报警 的 概率 。 < 


6.1.4 期 望 值 


可 以 使 用 概率 来 给 出 任何 数值 随机 变量 的 期 望 值 (如 ， 一 个 域 是 实数 的 一 个 子 集 )。 变 
量 的 期 望 值 是 变量 的 加 权 平 均值 ， 其 在 每 个 可 能 世界 的 值 由 可 能 世界 的 度量 来 加 权 。 

假设 V 是 一 个 随机 变量 ， 它 的 域 为 数值 域 ，w 是 一 个 可 能 世界 。 定 义 站 (wo) 为 域 Y 中 
Hiv, 使 得 后 V 二 v， 也 就 是 说 ， 我 们 把 一 个 随机 变量 作为 世界 的 函数 。 

数值 变量 V 的 期 望 值 (expected value)， 记 为 e(V): 

e(V) = X Vw) X p(w) 


这 里 指 存在 有 限 多 的 世界 时 。 当 存在 无 限 多 的 世界 时 ， 我 们 必须 积分 。 

【 例 6-7) 如 果 坏 开关 的 数量 是 一 个 整数 值 的 随机 变量 ， 

e(number_of_broken_switches) 
会 给 出 坏 开 关 的 期 望 数 。 如 果 世 界 根据 概率 模型 运行 ， 将 给 出 坏 开 关 长 期 运行 的 平 
均 数 。 a 

用 类 似 的 语义 定义 条 件 概率 ， 以 证 据 e 为 条 件 变 量 X WH REAM BB (conditional 
expected value) 记 为 e(V |e): 

e(V|e) = DV X ulw) 


”EN 


因此 ， 


ai , 
eV |e) = Po UV X Pw) LV) x Plwle) 





【 例 6-8] 假设 灯 hL 不 亮 ， 坏 开关 的 期 望 数 如 下 : 


e(number_of _broken_switches| ~lit(1,)) 


这 是 通过 所 有 灯 不 亮 的 所 有 世界 中 坏 开 关 的 平均 数目 获得 的 。 < 
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6. 1.5 信息 理论 


概率 形成 信息 理论 的 基础 。 在 本 节 中 ， 我 们 将 简要 介绍 信息 理论 。 

位 (bit) 是 一 个 二 进 制 数 。 因 为 位 有 两 个 可 能 的 值 ， 可 以 用 它 来 区 分 两 个 项 目 。 通 常 ， 
这 两 个 值 写 作 0 和 1， 但 它们 也 可 以 写 为 任意 两 个 不 同 的 值 。 

2 个 位 可 以 区 分 4 个 项 目 ， 分 别 记 为 00、01、10 和 11。 同 样 ，3 个 位 可 以 区 分 8 个 项 
目 。 在 一 般 情 况 下 ，? 个 位 可 以 区 分 2" 个 项 目 。 因 此 ， 我 们 可 以 用 logn 位 来 区 分 ?个 项 
目 。 这 可 能 是 令 人 惊讶 的 ， 但 我 们 可 以 通过 把 概率 问题 考虑 进去 从 而 做 得 更 好 。 

【 例 6-9) 假设 你 想 设 计 一 个 编码 来 区 分 集合 {a，5，c，q} 中 的 元 素 ， 其 中 PCa) 王 1/ 
2, P(b)=1/4, P(c)=1/8, P(d)=1/8. #8 FHR: 

a 0 c 110 

b 10 d i 

这 种 编码 ， 有 时 会 使 用 1 位 ， 有 时 会 使 用 3 位 。 平 均 来 说 ， 它 使 用 

1 


P(a)X1+P(b) X24 Pc) X 3+ Pld) x=} +E ii] Ži 


例如 ，8 FERFE aacabbda 的 编码 为 14 位 00110010101110. 

这 个 编码 需要 用 一 log:P(a) 二 1 位 来 区 分 a 不 同 于 其 他 符号 。 要 区 分 6， 需要 用 
一 logs P(b)= 二 2 位 。 为 了 区 分 c， 需 要 一 log:P(c) 王 3 位 。 “ai 

构建 一 种 编码 来 识别 x 可 能 需要 一 log, P(z) 位 (或 比 这 更 大 的 整数 ， 如 果 工 是 瞧 一 需 
要 发 送 的 ) 。 假 设想 要 传送 或 储存 一 个 符号 序列 ， 并 且 知 道 这 些 符号 的 概率 分 布 。 符 号 x 
的 概率 P(z) 需 要 一 logxP(z) 位 。 为 了 发 送 一 个 序列 ， 每 个 符号 平均 需要 

X 一 PCz) X log P(x) 


位 来 发 送 。 这 个 值 仅 仅 依赖 于 这 些 符号 的 概率 分 布 ， 这 就 是 所 谓 的 分 布 信息 内 容 (informa- 
tion content) BK 4 (entropy) 。 

类 似 于 条 件 概 率 ， 它 所 需要 的 描述 给 定 证 据 e 的 分 布 的 位 期 望 数 为 

Ie) = b> — Pla | e) X log: P(x |e) 


如 果 存 在 一 个 测试 可 以 区 分 a 为 真 和 a 为 假 的 情况 ， 此 测试 的 信息 增益 (information 
gain) 为 
I(true) — (Pla) XTe) 十 PC(”ma)XTICma)) 
其 中 TCtrxe) 为 在 测试 之 前 需要 位 的 期 望 数 ，P(a) XIa tP Oa) XT( a) 为 测试 之 后 位 的 
期 望 数 。 
在 以 后 的 章节 中 ， 我 们 将 对 任务 数 使 用 信息 的 概念 。 
。 在 诊断 中 ，Agent 可 以 选择 一 个 提供 最 多 信息 的 测试 。 
。 在 决策 树 学 习 中 ， 信 息 理论 提供 了 一 个 有 用 的 标准 用 来 选择 属性 划分 : 划分 能 够 
提供 最 大 信息 增益 的 属性 。 它 要 区 分 的 元 素 在 目标 概念 中 取 不 同 的 值 ， 其 概率 是 
由 保存 在 每 个 节点 的 训练 集中 的 每 个 值 的 比例 来 获得 的 。 
。 在 贝 叶 斯 学 习 中 ,信息 理论 在 已 知 一 些 数据 时 ， 为 决定 最 好 的 模型 提供 了 基础 。 


6.2 独立 性 


概率 的 公理 是 非常 弱 的 ， 在 允许 的 条 件 概率 上 提供 的 约束 很 少 。 例 如 ， 如 果 有 个 二 
进 制 变量 ， 就 要 从 任意 得 出 的 条 件 概率 中 为 一 个 完整 的 概率 分 布 分 配 2 一 1 个 数 。 为 了 确 
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[232] 定 任 意 概率 ， 可 能 需要 启动 一 个 庞大 条 件 概 率 或 可 能 世界 概率 的 数据 库 。 
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有 两 种 主要 的 方法 可 以 克服 对 于 庞大 数目 的 需求 : 

独立 性 ”假设 一 个 命题 Y 的 真实 性 知识 在 其 他 命题 Z 的 情况 下 不 会 影响 到 命题 X 的 
概率 。 我 们 说 X 在 给 定 2Z 的 情况 下 独立 于 Y， 定 义 在 下 文中 给 出 。 

最 大 蚁 或 随机 世界 ”没有 其 他 的 知识 ， 假 设 一 切 都 是 尽 可 能 随机 的 。 也 就 是 说 ， 概 率 
分 布 尽 可 能 与 有 用 信息 的 分 布 相 一 致 。 

这 里 详尽 地 论述 上 述 的 第 一 部 分 (请 参阅 下 面 描述 的 “减少 数目 ”的 内 容 )。 

只 要 P(h|e) 的 值 不 为 0 或 1，P(h|e) 的 值 就 不 能 限制 PCh|fAe) 的 值 。 后 者 的 概率 
可 以 在 L0, 1j 内 取 任 意 值 ， 如果 f 蕴含 h， 它 是 1， 如果 SBA A, EHO. 

依据 概率 论 ， 没 有 理由 说 为 什么 加 拿 大 女王 的 名 字 不 应 该 与 决定 灯 是 否 亮 所 采纳 的 开 
闫 位置 同 等 重要 ， 然 而 ， 领 域 知识 可 能 告诉 我 们 这 是 不 相干 的 。 

在 本 节 中 ， 我 们 提出 了 一 种 表示 ， 使 我 们 可 以 模拟 世界 结构 ， 当 指定 概率 时 相关 命题 
是 局 部 的 ， 非 直接 相关 变量 可 以 被 忽略 。 开 发 这 种 结构 可 以 进行 高 效 的 推理 。 

一 种 常见 的 定性 知识 是 P(h|e) 二 PC(h|fAe) 的 形式 。 这 个 等 式 表 示 了 与 给 定 e FHA 
的 概率 不 相关 。 例 如 ， 伊丽莎白 是 加 拿 大 的 女王 与 开关 s 关闭 时 we 带电 的 概率 不 相关 。 
这 种 思想 适用 于 随机 变量 ,正如 下 面 的 定义 : 

如 果 对 于 所 有 的 rEdom(X), yEdom(Y), y Edom(Y), zE€dom(Z), BALZER X 
有 条 件 地 独立 (conditionally independent) 于 给 定 随 机 变量 Z 下 的 随机 变量 Y， 使 得 PO = 
yAZ=z)>0, P(Y=y AZ=z)>0, P(X=2|Y=yAZ=z) =P(X=2|Y=y' AZ==z), 
即 给 定 一 个 Z 值 ， 知 道 Y 的 值 不 会 影响 到 对 XX 值 的 信念 。 
命题 6.5 只 要 定义 好 条 件 概率 ， 下 列 4 个 陈述 是 等 价 的 : 
1) 外 在 有 条 件 限制 下 独立 于 给 定 Z PHY. 
2) Y 在 有 条 件 限 制 下 独立 于 给 定 Z FOX. 
3) PCX|Y, 2Z) 二 P(X|2Z)。 也 就 是 说 ， 在 上 下 文中 给 定 一 个 Z 值 ， 如 果 给 定 一 个 Y 
HEX 中 得 到 相同 的 概率 ， 与 没有 给 定 了 值 一 样 。 
4) P(X, Y|Z)=P(X|Z)P( |Z). 
证 明 留 作 练习 。( 见 习题 6. 1) 


减少 数目 


允许 独立 性 表示 和 使 用 最 大 精 或 随机 世界 之 间 的 区 别 ， 罕 出 了 知识 表示 观点 的 重要 
不 同 : 
。 第 一 种 观点 ， 知 识 表 示 提 供 了 一 种 高 层次 的 建 模 语言 ， 可 以 让 我 们 用 一 种 合理 自 
然 的 语言 构建 一 个 域 。 根 据 这 一 观点 ,希望 知识 表示 设计 者 规定 怎样 使 用 知识 表 
示 语 言 ， 希 望 他 们 能 够 提供 一 份 描述 兴趣 领域 的 用 户 说 明 书 。 
。 第 二 种 观点 ， 知 识 表 示 应 该 允许 添加 有 关 一 个 域 的 任何 知识 ， 知 识 表示 应 以 常识 . 
的 方式 来 填充 。 根 据 这 一 观点 ， 知 识 表示 设计 者 指定 特定 知识 进行 编码 是 不 合 
理 的 。 
用 错误 的 标准 来 判断 知识 表示 不 会 产生 一 不 公正 的 评价 。 
对 于 一 个 特定 的 独立 变量 来 说 ， 信 念 网 络 是 一 种 表示 ， 信 念 网 络 应 该 被 看 做 一 种 建 模 
语言 。 通 过 信念 网 络 简洁 表达 出 的 独立 性 可 以 简明 自然 地 表示 许多 领域 。 这 并 不 意味 着 我 
们 仅 投入 大 量 的 事实 (或 概率 ) 就 能 期 待 一 个 合理 的 答案 ， 必 须 考 虑 域 、 涉 及 的 变量 以 及 变 
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量 之 间 呈 现 怎样 的 依赖 关系 。 当 用 这 个 标准 来 评判 时 ， 信 念 网 络 就 形成 了 一 个 有 用 的 表示 
规划 。 

一 旦 定义 信念 网 络 的 网 络 结构 和 变量 域 ， 就 确切 地 给 出 所 需 的 数目 (条 件 概率 )。 用 户 
不 能 只 是 简单 地 添加 任意 的 条 件 概率 ， 必 须 遵 循 网 络 的 结构 。 如 果 提 供 的 信念 网 络 所 需 的 
数字 与 本 地 一 致 ， 整 个 网 络 将 是 一 致 的 。 

相反 ， 最 大 炳 或 随机 世界 方法 可 以 推断 出 绝 大 部 分 与 概率 知识 库 相 一 致 的 随机 世界 ， 
它们 形成 了 第 二 类 的 概率 知识 表示 。 对 于 随机 世界 方法 ， 任 何 恰巧 可 用 的 数字 都 可 以 增加 
和 使 用 ， 但 是 ， 如 果 人 允许 增加 任意 的 概率 ， 知 识 就 不 易 与 概率 公理 相 一 致 。 此 外 ， 如 果 假 
设 不 明确 就 很 难 证 明 答 案 的 正确 性 。 


如 果 P(X，Y) 王 PCX)PGY)， 则 变量 X 和 Y 是 无 条 件 独立 (unconditionally independ- 
ent) 的 ， 也 就 是 说 ， 如 果 不 给 出 观察 ， 它 们 是 条 件 独立 的 。 注 意 ，X 和 Y 无 条 件 独立 并 不 
意味 着 在 给 定 其 他 信息 Z 时 它们 就 是 有 条 件 独 立 的 。 

条 件 独立 对 一 个 域 来 说 是 一 个 有 用 的 假设 ， 其 域 通 常会 自然 评定 出 并 且 可 以 给 出 有 用 
的 表示 。 


6.3 信念 网 络 


条 件 独立 的 概念 可 以 给 出 许多 域 的 简洁 表示 。 思 想 是 ， 给 定 一 个 随机 变量 X， 在 XX 
条 件 独立 于 给 定 直接 影响 变量 值 的 其 他 变量 情况 下 ， 也 许 存在 一 个 变量 的 小 集合 直接 影响 
变量 的 值 。 我 们 称 局 部 影响 变量 的 集合 为 马尔 可 夫 毯 (Markov blanket)。 这 种 局 部 性 正 是 
信念 网 络 中 使 用 的 。 信 念 网 络 (belief network) 是 随机 变量 集合 条 件 依赖 的 一 个 直接 的 模 
型 。 在 信念 网 络 中 条 件 独立 的 精确 表示 要 考虑 到 方向 性 。 

要 定义 信念 网 络 ， 首 先 需 要 一 个 代表 模型 所 有 特性 的 随机 变量 集 。 假 设 这 些 变量 为 
(Xis co Xn) RE ARDERE X, os Xano 

链 式 法 则 (命题 6. 3) 显 示 了 如 何 将 一 个 合 取 分 解 为 条 件 概 率 : 


PIX =n AM =a A AX =m) = [LP <al% =a A A Xm =a) 

或 者 ， 就 随机 变量 和 概率 分 布 而 言 ， 

POX, Xera Xa) = Ti ex | Xr ss Xm) 

定义 随机 变量 X; 的 父 节 点 ， 记 为 parents(X;)， 是 全 序 中 X 前 续 节 点 的 最 小 集合 ， 
使 得 其 余 X 的 前 续 节 点 条 件 独 立 于 给 定 parents (X;) 的 X;。 即 parents (X;) S 


(Xis ,Xi1)}, 使 得 

PCX; | X 1*…,X1) = PCX, | parents(X,)) 

如 果 存 在 一 个 以 上 的 最 小 集合 ， 任 何 最 小 集合 可 以 被 选择 为 父 节 点 。 只 有 当前 续 节 点 
中 的 一 些 是 其 他 节点 的 确定 函数 时 ， 才 可 能 存在 一 个 以 上 的 最 小 集合 。 

我 们 可 以 把 链 式 法 则 和 父 节点 的 定义 合 在 一 起 ， 给 出 


P(X, X230 Xp) = [[ PCX: | parents(X:)) 
i=! 


所 有 变量 的 概率 PCX; X25 ，…，X,)， 了 叫做 联合 概率 分 布 (joint probability distribu- 
tion) 。 信 念 网 络 定义 了 一 个 联合 概率 分 布 的 因 式 分 解 (factorization) ， 其 中 条 件 概 率 组 成 
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其 相 乘 的 因子 。 

信念 网 络 也 称 为 贝 叶 斯 网 络 (Bayesian network)， 是 一 个 无 向 图 (DAG)， 其 中 的 节点 
是 随机 变量 。 从 每 个 parents XON X: 元 素 有 一 条 弧 。 与 信念 网 络 相关 联 的 是 条 件 概率 分 
布 集合 一 一 给 出 其 父 节点 的 每 个 变量 的 条 件 概率 (其 中 包括 那些 无 父母 变量 的 先 验 概 率 ) 。 

因此 ， 信 念 网 络 的 组 成 为 : 

。 DAG， 其 中 每 个 节点 被 标记 为 一 个 随机 变量 

。 每 个 随机 变量 对 应 一 个 域 ; 

。 条 件 概 率 分 布 集 合 对 于 每 个 变量 X 给 出 P(X|parents(X))。 

信念 网 络 是 无 环 结构 的 ， 链 式 法 则 分 解 合 取 给 出 顺序 ， 变 量 只 能 把 前 续 节 点 看 成 是 父 
节点 ， 不 同 的 分 解 会 导致 不 同 的 信念 网 络 。 

【 例 6-10) 假设 我 们 要 使 用 诊断 助手 来 诊断 建筑 物 中 是 否 发 生火 灾 ， 这 要 基于 嗜 杂 的 
传感器 信息 和 可 能 的 现场 争论 的 描述 。Agent 接收 到 有 关 是 否 每 个 人 都 离开 大 楼 的 报告 。 
假设 报告 传感器 是 嘲 杂 的 : 有 时 没有 大 批 人 离开 时 它 会 报告 有 离开 (错误 的 积极 )， 有 时 当 
所 有 人 都 离开 了 它 也 不 报告 (错误 的 消极 )。 假 设 火警 响起 可 以 导致 离开 ， 但 这 不 是 一 个 决 
定性 关系 。 自 改 情况 或 发 生火 灾 都 会 影响 报警 。 火 灾 也 会 引起 浓 烟 从 建筑 物 中 升 起 。 

在 以 下 命令 中 ， 假 设 我 们 使 用 的 变量 全 都 是 布尔 型 : 

。 算 改 随 着 报警 发 生 时 ，Tampering 为 真 。 

© 当 发 生火 灾 时 ，Fire 为 真 。 

。 警 铃 响 时 ，Alarm 为 真 。 

。 HAHM, Smoke HH. 

。 如 果 一 旦 有 大 量 人 口 离开 建筑 物 时 ，Leaving HH. 

。 如 果 有 人 离开 而 产生 报告 ，Report 为 真 。 如 果 无 人 离开 面 产生 报告 ， 则 Report 

为 假 。 

变量 Report 表示 传感器 报告 有 人 离开 ， 这 种 信息 是 不 可 靠 的 ， 因 为 有 人 发 出 这 样 的 
报告 可 能 是 在 玩 恶作剧 ， 或 者 是 给 出 这 样 的 报告 也 没有 人 注意 到 。 引 入 这 个 变量 允许 不 可 
靠 的 传感器 数据 。Agent 知道 传感器 报告 了 什么 ， 但 关于 人 们 离开 大 楼 它 也 只 是 得 到 不 可 
靠 的 证 据 。 

作为 域 的 一 部 分 ， 假 设 如 下 的 条 件 独 立 : 

。 Fire 是 有 条 件 独立 于 Tampering (没有 其 他 信息 的 条 件 下 )。 

。 Alarm WRF Fire Fl Tampering. tht 

说 ， 我 们 不 做 出 有 关 Alarm 怎样 取决 于 其 
给 出 变量 顺序 的 前 续 节 点 的 假设 。 

。 Smoke 只 取决 于 Fire， 它 条 件 独立 于 
Tampering 和 Fire 是 否 发 生 的 Alarm. 

。 Leaving 只 取决 于 Alarm, 5j Fire 或 
Tampering 或 Smoke 没有 直接 关系 。 也 就 
是 说 ，Leaving 条 件 独立 于 给 出 Alarm 的 
其 他 变量 。 

。 Report 仪 直接 取决 于 Leaving. 

图 6-1 的 信和 念 网络 表现 了 这 些 依 赖 关 系 。 该 网 
呈现 的 因 式 为 : 图 6-1 fl 6-10 关于 离开 报告 的 信念 网 络 
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P( Tampering , Fire, Alarm, Smoke, Leaving Report) 

= P( Tampering) X P( Fire) X P(Alarm| Tampering, Fire) 

X P( Smoke | Fire) X P( Leaving | Alarm) X P(Report | Leaving) 237 

我 们 必须 定义 每 个 变量 的 域 。 假 设 变量 是 布尔 型 的 ， 也 就 是 说 ， 它 们 的 域 为 

{true，false}。 我 们 用 小 写 形 式 的 变量 代表 真 ， 用 其 否定 表示 假 。 因 此 ， 举例 Tampe- 
ring HAWN tampering, Tampering 为 假 记 为 "tampering。 
以 下 的 例子 遵循 条 件 概率 假设 : 
P(tampering) =0, 02 
Pr( fire)=0. 01 
P(alarm| fire N tampering) =0.5 
P(alarm | fire \ >tampering) =0. 99 
P(alarm| —fire N tampering) =0. 85 
P(alarm| fire \ ~tampering) =0. 0001 
P(smoke| fire)=0. 9 
P(smoke| —fire)=0. 01 
P(leaving | alarm) =0. 88 
P(leaving | 7alarm) =0. 001 
P(report | leaving) =0. 75 
P(report| >leaving) =0. 01 a 
【 例 6-11〗 考虑 图 1-8 接线 的 例子 。 假 设 我 们 取 灯 是 否 亮 的 变量 ， 开 关 位 置 的 变量 ， 
灯 和 开关 是 否 有 故障 的 变量 ， 是 否 有 电源 的 变量 。 变 量 在 图 6-2 中 定义 。 

我 们 选择 一 个 顺序 ， 将 导致 变量 的 原因 放 在 变量 之 前 。 例 如 ， 决 定 灯 是 否 亮 的 变量 排 
在 灯 是 否 工作 正常 的 变量 和 灯 是 否 有 电 的 变量 之 后 。 

灯 是 否 亮 只 取决 于 电源 线 o 中 是 否 有 电 ， 灯 是 否 正 常 工作 。 其 他 变量 ， 如 开关 
s 的 位 置 和 灯 ls 是 否 亮 ,或 谁 是 加 拿 大 女王 ， 都 是 不 相关 的 。 因 此 ，Li_iiz 的 父 节点 是 wo 
All L,_st. 

考虑 变量 W,。， 表 示 电 源 线 o 中 是 否 有 电 。 如 果 我 们 知道 电源 线 mm Mo PRA 
电 ， 知 道 开 关 ss 的 位 置 和 开关 是 否 正 常 工作 ， 那 么 其 他 变量 值 ( 除 了 工 _iit) 就 不 会 影响 对 
电源 线 wo。 中 是 否 有 电 的 信念 。 因 此 ，W。 的 父 节点 为 S2_Pos, Sst, Wi HW: 

图 6-2 显示 了 考虑 每 个 变量 独立 性 导致 的 信念 网 络 结果 。 信 念 网 络 还 包含 变量 的 域 ， 

如 图 中 所 示 ， 也 包括 给 出 其 父 节 点 的 每 个 变量 的 条 件 概率 。 238 
具体 说 明 如 下 : 

。 对 于 每 根 电 线 w:， 有 一 个 随机 变量 W,， 其 域 为 {live，dead}， 它 表示 线 w; PRA 
At. Wi live 意味 着 线 w; 中 有 电 。W, 二 dead 意味 着 w; PRB. 

。 Outside_power， 其 域 为 {live，dead}， 表 示 建 筑 物 是 否 来 电 。 

s 对 于 每 个 开关 Sis AR S;_ pos 意味 着 Si 的 位 置 ， 它 的 域 为 {up， down}, 

。 对 于 每 个 开关 s;:， 变 量 S st 表示 开关 s; HRA. EMBA(k, upside down, short, 
intermittent, broken}, S;_st=ok 时 表示 开关 5; IER LE. S;_st=upside_down 表示 
开关 s BE FAT. S,_st=broken 表示 开关 s 断 开 ， 不 允许 电流 流入 。 

。 对 于 每 个 断路 器 cb, 来 说 ， 变 量 Cb;_st WIRA lon, off). Chi_st=on 表示 cb; 可 
以 流入 电流 ，Cb st 一 of f RAR ch; 不 可 以 流 和 人 电流 。 

。 对 于 每 个 灯 4， 变量 工 st KRW (ok. intermittent, broken}, HARITM RA. 
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L,_st=ok RAST L MRA RAM. L,_st=intermittent RAK L 如 果 有 电 会 间 
KERE, L;_st=broken 表示 灯 li 不 能 正常 工作 。 

对 于 变量 W,， 规 定 了 下 面 的 条 件 概 率 : 

PWi=live|S!_pos=upAS:_st=ok NW: = live) 

P(W, =live | S,_pos=up A S,_st=ok A W; =dead) 

PCW, =live| S,_pos=up A S,_st=upside_down NW = live) 


PCW, = Live | S,_pos=down A S,_st=broken A W: =dead) 

S:_pos 有 2 个 值 ，S!_ok 有 5 个 值 ，W; 有 2 个 值 ， 所 以 指定 一 个 值 给 W Slive 时 有 
2X5X2=20 种 不 同 的 情况 。 只 要 考虑 到 概率 论 ， 这 20 种 情况 下 W = live 的 概率 可 以 任 
意 分 配 。 当 然 ， 域 知识 限制 了 什么 值 才 是 有 意义 的 。W 二 dead 的 值 可 以 从 每 一 个 这 些 情 
况 中 的 W, live 的 值 中 计算 得 出 。 

由 于 变量 S,_ 没有 父 节 点 ， 它 需要 指定 所 有 概率 的 一 个 先 验 分 布 ， 除 了 其 中 的 一 个 
值 。 剩 余 值 可 以 由 所 有 概率 和 为 1 的 约束 来 推导 。 因 此 ， 要 指定 5S,_st 的 分 布 ， 必 须 指定 
以 下 5 个 概率 中 的 4 个 : 

PCS, _st = ok) 

P(S;_st = upside_down) 

P(S,_st = short) 

P(S,_st = intermittent ) 

P(S,_st = broken) 


ae — f Outside_ power 
Cb,_st 人 > 一 一 一 一 ee, 
a ’ Cb,_st 
-一 一 一 一 、 ee a > 一 -一 
S\_pos Sst ) ( W, 3 ee 
ie an Or aan 2 R W, 
= i "A | Soy - 
N 一 =—s 
ot ent. ( P, 
Cm ) { W, \ ` 4 
ei. ~~ a P, 
Sst \ / S,_pos ee” 
-一 一 roe Cae 
5S,_pos yl M ) Ae — 
= roof (m) 
C Lst i 一 一 
| > ， Last 
ry es 
L,_lit j L, lit ` 
图 6-2 图 18 中 电气 领域 的 信念 网 络 
其 他 变量 类 似 表示 。 | 


信念 网 络 是 一 个 条 件 独立 的 图 形 表示 。 其 独立 性 允许 我 们 描述 出 其 对 图 形 的 直接 影 
响 ， 并 规定 哪些 概率 必须 指定 。 任 意 的 后 验 概率 可 以 从 网 中 推 得 。 

能 入 在 信念 网 络 中 的 独立 性 假设 如 下 : 每 个 随机 变量 条 件 独立 于 给 出 其 父 节点 的 子 节 
点 。 也 就 是 说 ， 如 果 随 机 变量 X 的 父 节点 为 YI，…，Y,， 那 么 ， 所 有 不 是 X 的 子 节点 的 


随机 变量 都 条 件 独立 于 给 定 了 Ya 的 X: 
P(X |Y; sY, R)=P(X | Yi v5 ,Yi > 


POE 不 确定 推理 159 


如 果 尺 不 包含 X 的 子 节点 。 对 于 这 个 定义 ， 我 们 将 X 包含 于 其 子 节点 本 身 。 等 式 右 
侧 是 信念 网 络 部 分 的 概率 的 形式 。 只 要 不 是 X 的 子 节点 ， 尺 可 能 包含 X 的 前 面 的 节点 和 
其 他 节点 。 独 立 性 假设 指出 ， 知 道 了 X 的 父 节 点 就 可 以 获取 所 有 非 子 节点 变量 的 影响 。 

通常 情况 下 ， 我 们 就 将 DAG 作为 一 个 信念 网 络 。 这 样 做 ， 记 住 每 个 变量 的 域 和 条 件 
概率 分 布 集 很 重要 ， 也 是 网 络 中 的 一 部 分 。 

对 于 每 个 变量 指定 的 概率 数 在 变量 父 节点 数目 中 是 指数 的 。 独 立 性 假设 是 有 用 的 ， 因 
为 直接 影响 另 一 个 变量 的 变量 数 是 很 小 的 。 应 该 将 变量 进行 排序 ， 这 样 节点 就 可 以 拥有 尽 
可 能 少 的 父 节 点 。 


信念 网 络 和 因果 关系 


信念 网 络 经 常 被 称 为 因果 网 络 (causal network)， 并 且 是 因果 关系 的 一 种 很 好 的 表示 。 
因果 模型 可 以 预测 中 间 结 果 。 假 设 你 想到 一 个 域 的 因果 模型 ， 此 域 是 就 随机 变量 集合 而 指 
定 的 。 对 于 每 对 随机 变量 X HX, WRA Xi BX. 存在 直接 的 因果 关系 ， 从 六! BX, 
添加 一 个 弧 (例如 ， 在 其 他 变量 语 境 中 改变 Xi 可 以 间接 影响 到 X:， 这 不 能 通过 获取 这 些 
中 间 变 量 来 建立 模型 ) 。 我 们 希望 这 个 因果 模型 能 够 遵从 信念 网 络 中 的 独立 性 假设 。 因 此 ， 
所 有 信念 网 络 的 结论 是 有 效 的 。 

我 们 也 期 望 这 样 的 图 是 无 环 的 。 如 果 考 虑 到 随机 变量 是 代表 特定 事件 ， 而 非 事 件 的 类 
型 ， 那 么 这 种 假设 是 合理 的 。 例 如 ， 考 虑 一 个 因果 链 ，“ 有 压力 ”导致 “工作 效率 低下 ”， 反 
过 来 ， 导 致 * 压 力 更 大 ”。 为 了 打破 这 种 明显 的 周期 性 循环 ， 我们 可 以 在 不 同 的 阶段 表现 
“有 压力 ”， 就 好 像 不 同 的 时 间 有 不 同 的 随机 变量 一 样 。 过 去 某 时 有 压力 会 使 你 不 能 正常 工 
作 ， 也 导致 在 未 来 也 会 有 压力 。 变 量 应 满足 明确 性 原则 (clarity principle) 和 一 个 明确 的 意 
义 。 变 量 不 应 该 被 看 做 是 事件 类 型 。 

信念 网 络 本 身 没 有 什么 因果 关系 ， 它 可 以 代表 非 因 果 独 立 性 ， 但 它 似 乎 特别 适合 于 域 
中 存在 因果 关系 的 情况 。 添 加 代表 局 部 的 因果 关系 的 弧 ， 可 以 产生 一 个 小 信念 网 络 。 
图 6-2 的 信念 网 络 表示 出 对 于 一 个 简单 域 来 说 这 是 怎么 形成 的 。 

因果 网 络 模拟 了 干预 因素 (intervention) 。 如 果 人 为 地 给 一 个 变量 赋 一 个 特定 的 值 ， 变 
量 的 子 节点 (不 是 其 他 节点 ) 会 受到 影响 。 

最 后 ， 可 以 看 到 信念 网 络 中 的 因果 关系 与 5.7 节 中 讨论 的 因果 关系 和 证 据 推理 有 怎样 的 
关系 。 因 果 信 念 网 络 可 以 看 做 在 因果 方向 上 的 一 种 公理 化 方式 。 信 念 网 络 中 的 推理 对 应 于 推 
出 原因 并 从 中 作出 预测 。5.7 节 中 讨论 的 基于 逻辑 的 外 展 观点 和 信念 网 络 两 者 之 间 存 在 一 种 
直接 映射 : 信念 网 络 可 以 在 可 能 假设 下 以 某 种 概率 模拟 逻辑 程序 。 这 将 在 14. THR. 


注意 在 信念 网 络 独立 性 定义 的 约束 “每 个 随机 变量 条 件 独立 于 给 出 其 父 节 点 的 非 子 节 
点 ”。 如 果 R 包含 变量 的 子 节点 ,独立 性 假设 是 不 能 直接 应 用 的 。 

【 例 6-12】 在 图 6-2 P, BRS, pos, S,_st MW: 是 变量 W 的 父 节点 。 如 果 知 道 
S;_pos, S:_st AW, WA. ABA hL 是 否 亮 ，Cb _st 的 值 是 多 少 都 不 会 影响 对 于 电源 线 w 
中 是 否 有 电 的 信念 。 但 是 ， 即 使 知道 了 S;_pos、S;_st 和 WW 的 值 ， 知 道 i; 是 否 亮 会 潜在 
地 改变 电源 线 wo. 是 否 有 电 的 信念 ， 独立 性 假设 不 能 直接 应 用 。 

变量 S，zpos 没有 父 节点 ， 因 此 ， 信 念 网 络 中 的 嵌入 的 独立 性 指定 ， 对 于 任意 给 定 的 A， 
P(S,_pos=up|A)=P(S,_pos=up), A 不 涉及 Si_pos 的 子 节点 。 例 如 ， 如 果 A 包括 S,_pos= 
up 的 子 节点 ， 比 如 说 A 是 S,_pos 二 wp 人 Li_lit 王 true， 独 立 性 假设 不 能 直接 应 用 。 本 
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信念 网 络 规定 从 任意 条 件 概率 可 以 推 得 联合 概率 分 布 。 在 网 络 中 可 以 在 任意 其 他 变量 
值 的 条 件 限 制 下 查询 任意 变量 的 条 件 概 率 。 这 通常 是 通过 对 一 些 变量 进行 观察 并 且 查 询 其 
他 变量 来 完成 。 
【 例 6-13】 考虑 例 6-10。 每 个 变量 的 先 验 概率 (没有 证 据 情 况 下 ) 可 以 使 用 下 一 节 的 方 
法 来 计算 。 下 面 的 条 件 概率 遵从 例 6-10 的 模型 ， 保 留 小 数 点 后 三 位 : 
P( tampering) =0. 02 
Pl fire) =0. 01 
P(re port) =0. 028 
P( smoke) =0. 0189 
观察 报告 给 出 了 以 下 结果 : 
P(tampering | report) =0. 399 
Pl fire | report) =0. 2305 
P( smoke | report) =0. 215 
正如 预期 的 那样 ， 通 过 此 报告 ，tampering 和 fire 的 概率 都 增加 。 因 为 fire 的 概率 
增加 ，smoke 的 概率 也 增加 了 。 
假定 观察 到 smoke: 
P(tampering | smoke) =0. 02 
Pl fire | smoke) =0. 476 
242 PCreport | smoke) =0. 320 
注意 ， 观 察 到 smoke 不 会 影响 到 tampering 的 概率 ; 然而 ，report 和 fire 的 可 能 性 会 增加 。 
假设 report 和 smoke 都 观察 到 了 : 
P(tam pering | report A smoke) =0. 0284 
Pl fire | report A smoke) =0. 964 
观察 两 者 更 能 确定 fire 的 发 生 率 。 然 而 在 report 情况 下 ，smoke 的 出 现 会 使 tampe- 
ring 的 概率 更 小 。 这 是 因为 report 是 出 自 对 fire 的 解释 ， 导 致 真实 情况 发 生 率 更 高 。 
假设 现在 观察 到 的 是 report 并 非 是 smoke: 
P(1tampering | report \ ~smoke) =0. 501 
PC fire | report A ~smoke) =0. 0294 
在 report 情况 下 ，fire 的 概率 小 ， 所 以 tampering 增加 概率 来 解释 report 。 
这 个 例子 说 明了 信念 网 络 独立 性 假设 是 怎样 给 出 常识 性 的 结论 ， 以 及 为 什么 是 一 种 信 
念 网 络 独立 性 假设 的 结果 。 
这 个 网 络 可 以 以 多 种 方式 来 使 用 : 
。 给 定 条 件 如 下 : 开关 和 断路 器 正常 ， 外 部 电源 值 和 开关 位 置 已 知 。 该 网 络 可 以 模 
拟 灯 是 如 何 工作 的 。 
。 给 定 外 部 电源 的 值 和 开关 的 位 置 ， 网 络 可 以 推断 出 任何 输出 的 可 能 性 一 一 例如 ， 
亮 的 概率 。 
。 给 定 开关 的 值 和 灯 是 否 亮 起 ， 每 个 开关 或 断路 器 在 任何 特定 状态 的 后 验 概率 可 以 
推断 出 来 。 
。 给 出 一 些 观察 ， 可 以 使 用 网 络 来 进行 回 推 从 而 决定 最 佳 开关 位 置 。 
。 给 出 开关 位 置 、 输 出 和 一 些 中 间 值 ， 可 以 使 用 网 络 来 决定 网 络 中 任意 其 他 变量 的 
概率 。 < 
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构建 信念 网 络 


要 代表 一 个 信念 网 络 中 的 域 ， 网 络 设计 师 必须 考虑 以 下 问题 : 
1) 相关 的 变量 是 什么 ?设计 师 要 特别 考虑 : 
。 在 域 中 Agent 会 观察 到 什么 ， 观 察 到 的 每 一 点 都 是 一 个 随机 变量 ， 因 为 Agent 必 
须 能 对 它 所 观察 到 的 每 样 东西 都 能 控制 。 
。 给 定 观 察 ，Agent 要 对 它 所 感 兴趣 的 信息 知道 其 概率 ， 每 个 特点 都 要 视 为 变量 来 获得 。 243 
。 其 他 隐藏 的 变量 (hidden variable) 或 潜在 的 变量 (latent variable) 不 会 被 观察 到 或 查 
询 到 ， 但 是 这 使 得 模型 更 简单 化 。 这 些 变量 要 么 导致 依赖 关系 ， 要 么 减少 条 件 概 
率 规格 的 大 小 。 
2) 这 些 变量 应 该 取 什 么 样 的 值 ? 这 需要 考虑 Agent 推理 达到 的 详细 程度 ， 来 回答 所 
遇 到 查询 的 种 类 。 
对 于 每 个 变量 来 说 ， 设 计 人 员 应 该 指定 其 域 中 所 采用 值 的 含义 。 在 域 中 对 于 一 个 有 特 
殊 值 的 变量 来 说 什么 必须 为 真 应 该 满足 明确 性 原则 。 明 确 记 录 所 有 变量 的 含义 和 它们 可 能 
的 值 是 一 个 好 主意 。 只 有 在 Agent 想 从 数据 中 学 习 的 隐藏 变量 的 值 存在 时 ， 设 计 者 才 不 想 
这 么 做 ( 见 11. 2.2 47). 
3) 变量 之 间 是 什么 关系 ? 这 应 由 本 地 影响 力 来 表示 ， 并 且 使 用 亲子 关系 进行 建 模 。 
4) 变量 的 分 布 是 怎样 依赖 于 本 地 影响 它 的 变量 的 (其 父 节点 )? 这 是 在 条 件 概率 分 布 
下 表示 的 。 
【 例 6-14] 假设 希望 诊断 助手 能 够 推断 出 患者 的 气喘 和 咳嗽 的 可 能 原因 ， 如 例 5-30. 
。 Agent 可 以 观察 到 咳嗽 、 和 气喘、 发烧， 并且 询 问 病 人 是 否 吸 烟 。 因 此 ， 有 对 应 这 
些 因素 的 变量 。 
*。 Agent 希望 了 解 其 他 病人 的 症状 和 各 种 可 能 的 治疗 方法 : 如 果 是 这 样 ， 这 些 也 应 
该 是 变量 (尽管 它们 在 本 例 中 不 使 用 ) 。 
。 存在 有 用 的 变量 可 预测 出 病人 的 结果 。 医 学 界 已 命名 的 这 些 特点 及 对 其 症状 进行 
特征 化 。 在 这 里 ， 我 们 将 使 用 支气管 炎 和 流感 变量 。 
。 现在 考虑 这 些 变量 直接 依赖 于 什么 。 患 者 是 否 哮 跨 取 决 于 他 们 是 否 有 支气管 炎 。 
他 们 是 否 咳 嗽 取决 于 他 们 是 否 有 支气管 炎 。 患 者 是 否 有 支气管 炎 取 决 于 他 们 是 否 
有 流感 ， 以 及 他 们 是 否 吸 烟 。 他 们 是 否 有 发 烧 取 决 于 他 们 是 否 有 流感 。 图 6-3 描 
述 了 这 些 依 赖 关 系 。 





图 6-3 tl 6-14 的 信念 网 络 


。 选择 变量 的 值 ， 涉 及 要 考虑 到 所 推断 东西 的 详细 程度 。 可 以 给 每 个 疾病 或 症状 的 
严重 程度 进行 编码 ， 把 它们 作为 变量 的 值 。 例 如 ， 对 于 气喘 变量 可 以 使 用 重度 、 
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中 度 、 轻 度 ， 或 无 气喘 。 例 如 ， 通 过 对 疾病 的 所 有 图 形 进行 表征 ， 可 以 在 一 个 较 
低 的 抽象 层次 建立 疾病 的 模型 。 为 了 便于 说 明 ,， 我 们 将 在 一 个 非常 抽象 的 层次 上 
建立 一 个 域 ， 只 考虑 症状 和 疾病 的 存在 或 不 存在 。 每 一 个 变量 将 其 域 为 
{true，false} 的 布尔 值 ， 表 示 相 关 的 疾病 或 症状 的 存在 或 不 存在 。 
。 评定 每 个 变量 是 怎样 依赖 于 其 父 节点 ， 这 是 要 靠 给 出 其 父 节点 的 每 个 变量 的 条 件 
概率 来 给 定 : 
P( 流 感 ) 二 0. 05 
P( 吸 烟 ) 二 0.2 
PCR BH | HE RI=0. 3 
PC ob, J | SE ER) =O. 001 
POR | HR) =0.9 
了 (发烧 | 非 流感 ) 一 0. 05 
P( 支 气管 炎 | 流感 人 吸烟 ) 一 0.99 
P( 支 气管 炎 | 流感 人 不 吸烟 ) 一 0.9 
P( 支 气管 炎 | 非 流 感人 吸烟 ) 一 0.7 
P( 支 气管 炎 | 非 流感 人 不 豚 烟 ) 一 0. 0001 
PCRK | 支气管 炎 ) 一 0. 8 
PCRR | 无 支气管 炎 ) 一 0. 07 
已 (气喘 | 支气管 炎 ) 一 0.6 
PCA | 无 支气管 炎 ) 一 0.001 
通过 对 症状 观察 和 故障 或 疾病 的 后 验 概率 来 进行 诊断 (diagnosis) 过 程 。 
这 个 例子 也 说 明了 另 一 个 喜欢 辩解 并 且 与 复杂 诊断 相 比 更 偏爱 简单 诊断 的 例子 。 
在 任何 观察 之 前 ， 我 们 可 以 计算 ( 见 下 一 节 ) 几 个 显著 的 数字 ， 忆 (吸烟 ) 王 0,.2， 
也 ( 流 感 ) 一 0.05， 书 (支气管 炎 ) 一 0.18。 一 且 观 察 到 气喘 ， 以 上 三 者 发 生 的 概率 更 高 : 
已 (吸烟 | 气喘) 一 0.79， 书 (流感 | 气喘 ) 一 0.25， 书 (支气管 炎 | 气 喘 ) 一 0. 992 
假设 观察 到 气喘 人 发 烧 : P( 吸 烟 | 气 嘴 八 发烧) 二 0. 32, PORR | AR A AH) =O. 86, 
P( 支 气管 炎 | 气喘 八 发烧 ) 二 0. 998, TER, RG 5-30 那样 ， 当 观察 到 发 烧 时 ， 是 怎样 暗示 
出 有 流感 的 ， 同 样 也 揭示 了 吸烟 的 行为 。 < 
【 例 6-15〗 考虑 图 6-2 中 所 描述 的 信念 网 络 。 注 意 到 ， 这 个 模型 中 其 人 的 独立 性 假设 : 
DAG 指出 灯 、 开 关 、 断 路 器 是 独立 坏 掉 的 。 为 了 建立 开关 是 如 何 坏 掉 的 依赖 性 模型 ， 可 以 
添加 更 多 的 弧 也 可 以 是 更 多 的 节点 。 例 如 ， 如 果 灯 没有 独立 性 的 坏 掉 ， 那 是 因为 它们 是 同一 
批 生 产 的 ， 可 以 添加 额外 的 节点 来 传达 这 种 依赖 关系 ， 可 以 添加 一 个 节点 表示 这 些 灯 都 来 自 
一 批 好 的 生产 还 是 坏 的 生产 ， 其 父 节点 是 Li_st 和 L_s。 该 灯 现 在 可 以 依赖 性 地 坏 掉 了 。 当 
有 证 据 证 明 ， 一 个 灯 坏 了 ， 那么 它 同一 批 次 为 坏 的 可 能 性 会 增加 ， 从 而 其 他 灯 也 是 坏 的 可 能 
性 就 更 大 了 。 如 果 不 确定 这 些 灯 是 否 来 自 同一 批 次 ， 也 可 以 添加 一 个 节点 来 表示 。 重 点 是 信 
念 网 络 提供 了 一 种 独立 性 的 规格 ， 可 以 让 我 们 以 一 种 自然 、 直 接 的 方式 来 建立 依赖 性 模型 。 
该 模型 表明 ， 没 有 电线 短路 或 是 房子 接线 与 图 不 同 的 可 能 性 。 特 别 是 ， 它 表明 w 对 
于 wo, 来 说 不 会 短路 ， 所 以 m 从 ws 中 来 电 。 可 以 添加 额外 的 依赖 关系 ， 给 每 一 个 可 能 的 
短期 建 模 。 另 一 种 方法 是 增加 一 个 额外 的 节点 ， 表 明 该 模型 是 合适 的 。 从 这 个 节点 的 弧 会 
导致 每 个 变量 代表 电线 的 电源 和 每 个 灯 中 的 电源 。 当 模型 适合 时 ， 可 以 使 用 例 6-11 的 概 
率 。 当 模型 不 适合 时 ， 可 以 指定 每 根 电线 和 灯 随 机 地 工作 。 当 存在 与 原始 模型 不 适合 的 观 
察 时 ， 就 不 可 能 或 肯定 不 能 给 出 模型 ， 模 型 不 适合 的 概率 会 增加 。 < 


第 6 章 不 确定 推理 163 


【 例 6-16] 假设 开发 一 个 帮助 系统 (help systerm) ， 基 于 用 户 在 查询 帮助 系统 输入 的 关 
键 词 来 确定 用 户 感 兴趣 的 帮助 页 。 

系统 将 观察 用 户 提 供 的 词 。 假 设 我 们 不 想 建 立 句 子 结构 ， 但 是 假设 词语 集 就 足以 确定 
帮助 页 面 ， 用 户 可 以 给 定 多 个 单词 。 一 种 表示 方法 是 给 每 一 个 词语 赋 一 个 布尔 变量 ， 因 
此 ， 当 用 户 使 用 查询 时 ， 标 有 able, absent, add, zoome.. 的 词语 其 值 为 真 ， 当 用 户 不 
使 用 时 ， 其 值 为 假 。 

我 们 感 兴 趣 的 是 用 户 想 要 哪 种 帮助 页 面 。 假设 用 户 仅 对 一 个 帮助 页 面 感 兴 趣 ， 因 此 ， 
构造 一 个 节点 电 ， 其 域 为 所 有 帮助 页 面 {hh ，…，hi} 的 集合 是 合理 的 。 

一 种 表示 方法 是 朴素 贝 叶 斯 分 类 (Cnaive Bayesian classifier) 。 朴 素 贝 叶 斯 分 类 器 是 一 
个 拥有 单 节点 (类 ) 的 信念 网 络 ， 其 直接 影响 其 他 变量 ， 并 且 其 他 变量 对 于 给 出 的 类 是 独立 
的 。 图 6-4 显示 了 一 个 有 关 帮 助 系统 的 朴素 贝 叶 斯 分 类 器 ， 其 中 用 户 感 兴趣 的 帮助 页 面 H 
为 一 个 类 ， 其 他 节点 代表 用 户 在 查询 中 使 用 的 词语 。 在 这 个 网 络 中 ,查询 中 所 用 的 词 依赖 
于 用 户 感 兴趣 的 帮助 页 面 ， 并 且 这 些 词 对 于 给 定 的 帮助 页 面 是 相互 条 件 依赖 的 。 





图 6-4 例 6-16 的 朴素 信念 网 络 


对 于 每 个 帮助 页 面 h;， 在 没有 任何 信息 的 情况 下 ， 网 络 用 PC(hi) 表 示 用 户 想 要 帮助 页 
面 h; 的 程度 。 用 户 有 一 些 特殊 问题 需要 帮助 ， 根 据 帮 助 的 程度 ， 可 以 获得 信息 。 网 络 假 
设 用 户 真 实地 对 一 个 页 面 感 兴趣 ， 因 此 此 时 DUP thi) =1, 


网 络 也 要 求 ， 对 于 每 个 词 w; 和 每 个 帮助 页 面 h;， 概 率 用 P | hi) 表 示 。 这 些 值 看 
起 来 似乎 很 难 查询 ， 但 是 我 们 可 以 使 用 几 个 启发 式 方 法 。 这 些 数 的 平均 值 可 用 查询 中 词 的 
平均 数目 除 以 词 的 总 数 。 当 询问 帮助 页 面 时 ， 我 们 希望 出 现在 帮助 页 面 的 词 比 不 出 现在 帮 
助 页 面 的 词 更 加 可 用 。 可 能 存在 和 人 们 经 常 使 用 的 页 面相 关联 的 关键 词 ， 也 可 能 存在 这 样 
一 些 词 ， 它 们 经 常 被 使 用 ， 但 是 独立 于 用 户 感 兴趣 的 帮助 页 面 。 例 7-13 显示 了 网 络 的 概 
率 分 布 怎样 从 经 验 中 得 到 。 

对 于 查询 中 词 的 集合 ， 出 现在 查询 中 的 词 被 视 为 真 ， 未 出 现在 查询 中 的 词 被 视 为 假 。 
例如 ， 假 如 帮助 文本 是 “the zoom is absent”， 词 “the”、“zoom”、“is”、“absent” 将 被 赋予 
真 ， 其 他 的 词 将 被 赋予 假 。 dt 且 最 有 可 能 的 几 个 帮助 主题 能 够 
显现 给 用 户 。 

一 些 词 ， 如 “the” 和 “is” 可 能 不 如 那些 和 帮助 主题 相关 ， 但 是 和 它们 有 相同 条 件 概率 的 
其 他 词汇 ， 这 些 词 在 模型 中 会 被 去 除 。 没 有 被 预期 到 出 现在 查询 中 的 词 也 会 从 模型 中 
去 除 。 

注意 到 ， 条 件 是 词 没 有 出 现在 查询 中 。 例 如 ， 如 果 hi 页 是 关于 打印 问题 ,我 们 可 能 
期 望 想 要 hs 页 的 用 户 使 用 “print” 这 个 词 。 在 查询 中 “print” 词 不 存在 是 用 户 不 想 要 js 页 面 
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的 一 个 强 有 力 的 证 明 。 

帮助 页 面 中 词 的 独立 性 是 一 个 很 强 的 假设 。 这 个 假设 并 没有 应 用 到 像 *not” 这 样 的 词 
上 ， 在 这 种 情况 下 ， 词 not? 和 什么 相关 是 重要 的 。 假 如 人 们 正在 间 一 些 句 子 ， 句 子 中 的 
词 不 会 条 件 独立 于 句 中 的 其 他 词 ， 因 为 一 个 词 的 概率 依赖 于 句 中 的 上 下 文 环境 。 可 能 存在 
一 些 互相 补充 的 词 ， 在 这 种 情况 下 ， 和 希望 用 户 使 用 其 中 的 一 个 而 不 使 用 另 一 个 (例如 
“type” 和 “write”)， 和 希望 一 起 使 用 的 词 ( 例 如 ,，“go” 和 “to”)。 这 些 情况 都 违反 了 独立 性 
假设 。 至 于 违反 假设 什么 程度 会 破坏 系统 的 实用 性 ， 这 是 一 个 经 验 的 问题 。 < 


6.4 概率 推理 


通常 ， 主 要 的 概率 推理 任务 是 在 给 定 一 些 证 据 条 件 下 ， 计 算 查 询 变量 的 后 验 概 率 分 
布 。 不 幸 的 是 ， 即 使 在 绝对 误差 (不 到 0. 5) 或 固定 的 乘 数 因 子 条 件 下 ， 信 念 网 络 中 后 验 概 
率 的 评估 问题 也 是 一 个 NP 难 问题 ， 因 此 ， 一 般 的 高 效 执行 将 不 会 有 效 。 

信念 网 络 中 概率 推理 的 主要 方法 如 下 : 

。 利用 网 络 的 结构 。 这 种 方法 是 变量 消除 算法 的 典型 代表 ， 以 后 将 详细 说 明 。 

。 基于 搜索 的 方法 。 通 过 列举 一 些 可 能 的 领域 ， 后 验 概率 可 以 从 生成 的 领域 估 测 到 。 

通过 计算 没有 考虑 到 的 领域 的 概率 分 布 ， 在 后 验 概 率 中 误差 的 范围 可 以 被 估计 到 。 
这 种 方法 适用 于 分 布 是 极端 的 情况 (所 有 的 概率 接近 于 0 或 接近 1) ， 如 发 生 在 工程 
系统 中 。 

。 变 分 推理 (variational inference)， 它 的 思想 是 找到 一 个 容易 计算 的 问题 的 近似 值 。 

首先 选择 一 个 比较 容易 计算 的 表示 类 。 这 个 类 要 和 不 连通 的 信念 网 络 的 集合 一 样 
简单 (没有 弧 ) 。 下 一 步 ， 试 图 找到 一 个 最 接近 原始 问题 的 类 成 员 。 也 就 是 说 ， 找 
到 一 个 容易 计算 的 分 布 ， 这 个 分 布 要 尽 可 能 地 接近 后 验 分 布 且 这 个 分 布 能 够 被 计 
算 。 因 此 ， 问题 简 化 为 最 小 化 误差 的 最 优化 问题 。 

。 随机 模拟 。 在 这 些 方法 中 ， 根 据 概 率 分 布 产生 随机 案例 。 通 过 将 这 些 随 机 案例 当 
做 一 系列 的 样本 集合 ， 此 时 关于 任意 变量 组 合 的 边缘 分 布 能 够 被 估计 。 在 6. 4.2 
节 我 们 介绍 了 随机 模拟 方法 。 

在 本 书 中 ， 我 们 仅仅 介绍 了 第 1 种 和 第 4 种 方法 。 


6.4.1 信念 网 络 中 的 变量 消除 


这 一 部 分 介绍 了 在 一 个 任意 结构 的 信念 网 络 中 ， 找 到 关于 一 个 变量 的 后 验 分 布 的 算 
法 。 许 多 准确 有 效 的 算法 能 被 视 为 此 算法 的 优化 。 这 个 算法 可 以 视 为 满足 约束 问题 
(CSPs) 的 变量 消除 (VE) 算 法 或 者 满足 软 约束 的 VE 算法 的 一 个 变 蜡 版 本 。 

此 算法 建立 在 一 种 思想 之 上 ， 即 信念 网 络 中 特别 指出 了 联合 概率 分 布 的 一 个 因 式 
分 解 。 

在 给 出 此 算法 之 前 ,我 们 定义 了 一 些 因 式 和 操作 ， 进 而 以 它们 为 操作 对 象 。P(X |Y) 
是 一 个 包含 变量 X 和 YY 的 实数 变量 ， 对 于 给 定 的 X 值 和 Y 值 ， 其 表示 对 于 给 定 值 Y， 关 
于 X 值 的 条 件 概率 。 正 如 因 式 的 思想 ， 变 量 函 数 的 思想 由 此 产生 了 。 在 信念 网 络 中 ，YVE 
算法 通过 控制 因 式 来 计算 后 验 概率 。 

一 个 因 式 表示 从 一 个 随机 变量 元 组 映射 到 一 个 实数 的 函数 。 对 于 f(X}，…，X;)， 变 
HEX, sy X; EPAR S 的 变量 上 且 f 是 关于 和 X，， tty X; 的 一 个 因 式 。 
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设想 f(X; ，…，X,) 是 一 个 因 式 ， 每 个 vw BX, 域 的 一 个 元 素 。 当 每 个 义 有 一 个 v 值 时 ， 
SX Su, Xz 二 w，*…，X; 二 wv) 就 表示 一 个 数 。 因 式 的 一 些 变量 能 被 赋值 进而 产生 一 个 关于 其 
他 变量 的 新 因 式 。 例 如 ，f(X 二 ww，X。，…，X;) 有 时 记 为 AKo Xs es Xx CEK 
FX, +, X 的 一 个 因 式 ，m EX 变量 域 的 一 个 元 素 。 

【 例 6-17] 图 6-5 以 图 表 形 式 显 示 了 关于 变量 X、Y、Z 的 一 个 因 式 rX, Y, 2), 
它 假设 每 个 变量 拥有 一 个 二 值 域 {:，f}。 图 中 给 出 了 关于 Y、Z 的 因 式 (X=, Y, Z) 
的 图 表 。 类 似 的 ，r(X=t,，Y，2Z= 有 有) 是 关于 YY 的 因 式 , r(X=t, Y=f, Z=f/kR-— 
个 数 。 





图 6-5 因 式 和 赋值 的 例子 < 
因 式 能 做 相 乘 运算 。 假设 fı 和 fe 是 因 式 ， i 是 包含 变量 X, sos Ky 和 了 ， ee: Y; 
的 因 式 ， f: 是 包含 变量 YY 了， baat | Y; 和 Zis oe, Ly 的 因 式 。 Kio Aey Y, Æ fı 和 f 的 公 
共 变 量 ， fı 和 fo 的 乘积 (product) 记 为 fiX fzo 它 是 关于 变量 单元 Xi， very Xo Yous 0, 
Yj» Zis hae | Z: 的 因 式 ， 定义 如 下 : 
Cf X fo CK, stts Xi sYa ee Vp ZZ) = fai (Xi cee Kee Vi ss Y,) X folYi ss YZ eee Ze) 
条 件 概率 及 因 式 表示 | 
条 件 概率 被 视 为 是 相关 变量 的 函数 。 一 个 因 式 表示 关于 变量 的 函数 ， 因 此 ， 一 个 因 式 


能 用 来 表示 条 件 概 率 。 

当 变 量 有 有 限 的 域 时 ， 这 些 因 式 能 被 作为 矩阵 执行 。 如 果 存 在 变量 的 排序 (如 ， 按 字 
母 次 序 )， 区 域内 的 值 能 被 映射 为 非 负 实数 ， 存 在 每 个 元 素 的 典型 表示 一 维 数组 ， 此 时 它 
能 够 通过 自然 数 被 检索 。 通 过 使 用 这 样 的 表示 ， 关 于 因 式 的 操作 能 够 有 效 地 被 执行 。 然 
而 ， 对 用 户 来 说 ， 这 并 不 是 最 好 的 表示 方法 ， 因 为 条 件 的 结构 丢失 了 。 

因 式 不 必 作 为 数组 执行 。 当 有 太 多 的 父 节点 时 ， 用 列表 表示 太 大 。 通 常 ， 大 多 数 结构 
存在 能 够 被 使 用 的 条 件 概 率 。 

一 个 这 样 的 结构 使 用 上 下 文 特定 的 独立 (context-specific independence) ， 在 这 个 环 
境 中 ， 已 知 第 三 个 变量 的 特殊 值 ， 此 时 一 个 变量 条 件 独 立 于 另外 一 个 变量 。 例 如 ， 设 
想 机 器 人 能 够 走 到 外 面 或 者 获得 咖啡 。 它 是 否 会 淋 湿 取决 于 环境 中 是 否 有 十 ,在 这 
里 ， 环 境 指 的 是 它 出 去 或 者 如 果 它 得 到 咖啡 后 杯子 是 否 是 满 的 。 存 在 许多 表示 条 件 概 
率 P(Wet | Out, Rain, Ful) 的 方法 ， 如 用 决策 树 表示 ， 用 概率 规则 表示 ， 用 带 有 环 
境 的 图 表 表 示 。 
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out; 





wet—out \ rain: 0.8 
wet+out À ~ rain: 0.1 
wet+— ~ out À full: 0.6 
wet ~out À ~ full: 0.3 


~ oul: 





ARB LARRRRFE. Aw, ROMBART EM. WH, AFTE., WRA 
AM, MAZE-SHTFRUMAAMEARE, WREUBAR WHE, 那么 存在 一 个 由 于 咖 
啡 机 器 人 淋 湿 的 概率 ， 依 此 类 推 。 如 果 由 于 其 中 一 个 原因 机 器 人 淋 湿 ， 那 么 就 用 or 连接 。 
250 下 一 章 探讨 了 表示 概率 分 布 的 其 他 方法 。 


【 例 6-18】 图 6-6 显示 了 ACA, DA 户 (B，C) 的 乘积 ， 它 是 关于 A、B、C 的 一 个 因 式 。 
ER. (AiXf)(A=t, B=f, C=fP=f, (A=t, B=—P)X fp (B=f, C=f)=0. 9X0. 4=0. 36. 


fx 





图 6-6 ” 因 式 相 乘 的 例子 < 

余下 的 操作 是 计算 出 因 式 中 的 一 个 变量 。 针 对 因 式 f(X1，…，X;)， 统 计 出 一 个 变 
量 ， 记 为 Xi， 关于 一 个 因 式 中 的 其 他 变量 Xz, i X; 的 定义 如 下 : 

(Bf) eX, = f(Xi = ,Ke Xj) Hee + CK, = ws Xi, Xj) 

Hp (v, lec vi) 是 关于 变量 Xı 的 可 能 取 值 的 集合 。 

【 例 6-19] 图 6-7 给 出 了 一 个 从 户 (A，B，C) 中 计算 变量 B 的 例子 ， 其 中 ACA, B, O 
是 关于 A 和 C 的 因 式 : 

( Dr) A= iC f= f(A=t.B=1.0= N+fA=tB= f.C= /=0.07+0.36=0.43 


a 
条 件 概 率 分 布 P(X | Yis s YO RBRAARKF REX, Yi, s Y; 的 一 个 函 


数 ， 其 中 
f(X=u Y =v 0 FY, =u) =PCX=u| Yi: =u A MAY,=%,) 
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通常 ， 人 们 喜欢 用 PC |. ) 表 示 ， 但 是 实质 上 计算 机 仅仅 将 条 件 概 率 当 做 因 式 。 


B 
t 
t 

f 

S 
t 
t 

f 

f 


Sasasa oao 





6-7 ”从 一 个 因 式 中 和 算出 一 个 变量 


信念 网 络 推理 问题 (belief network inference problem) 是 在 给 出 一 些 证 据 的 前 提 下 ， 计 
算 变 量 后 验 分 布 的 问题 。 
计算 后 验 分 布 的 问题 能 够 简化 为 计算 联合 概率 的 问题 。 已 知 证 据 Yi =u. os Y= 
Uj» 查询 变量 Z; 
_ y PZY 一 一) PY = m=) 
PZ|¥ = wees ¥; = uy) = PY, =u re =0) 3) PZY: a ee 








Auk, Agent 能 够 计算 因 式 PCZ, Y,=v,. =, Yj 二 v;) 且 标准 化 。 注 意 到 这 是 一 个 
仅仅 关于 Z 的 因 式 ; 对 于 给 定 一 个 值 Z， 它 返回 一 个 数值 ， 其 表示 证 据 和 Z 值 的 联合 概率 
分 布 。 

设想 信念 网 络 的 变量 是 X!，…，X,， 为 了 计算 因 式 PCZ, Yi=u, 1, Yi=u)s M 
联合 分 布 中 计算 出 其 他 变量 。 设 想 Z1，…，Z 是 信念 网 络 中 关于 其 他 变量 的 举例 ， 也 
就 是 

{Zi see, Z} = {Ky eee Xna} — {Z} — (Vier V5} 

证 据 和 Z 的 联合 概率 是 


PZY 一 ts = y) = Dye DPX Kayan ajay, 
Zy z 


变量 Z 被 计算 出 来 ， 关 于 它 的 排序 是 一 个 消除 排序 (elimination ordering), 

要 注意 这 和 可 能 的 语义 分 布 是 怎样 相关 联 的 。 存 在 一 个 可 能 领域 ， 将 每 个 值 分 配给 每 
个 变量 。 联 合 概率 分 布 (joint probability distribution) PC(X ，…，X,) 给 出 了 每 个 可 能 领 
域 的 概率 。 针 对 Y;，VE 算法 选择 带 有 观察 值 的 领域 且 计 算出 拥有 同样 Z 值 的 可 能 领域 。 
这 和 条 件 概率 的 定义 相关 。 然 而 ，VE 算法 做 这 些 要 比 计算 所 有 的 领域 更 有 效 。 

通过 联合 概率 的 规则 和 信念 网 络 的 定义 ， 

P(X: se, Xa) = P(X; | parentCX )) X * X P(X, | parent (X,)) 

XE, parent(X BEER X; 的 父 节 点 的 集合 。 

现在 我 们 将 信念 网 络 推理 问题 简化 为 由 因 式 的 乘积 和 算出 一 个 变量 集合 的 问题 。 为 了 
有 效 地 解决 这 个 问题 ， 我 们 使 用 中 学 学 习 过 的 分 布 规则 : 为 了 计算 如 zy 十 zz 形式 的 乘积 
和 ， 提 取出 常 因子 z， 所 求 变 为 x(y 十 z)。 这 就 是 VE 算法 的 本 质 。 因 为 代数 学 中 术语 的 
使 用 ， 我 们 将 这 些 能 够 做 乘积 因子 的 元 素 都 叫做 因 式 。 起 初时 ， 因 式 表 示 条 件 概率 分 布 ， 
但 是 临时 的 因 式 仅仅 是 关于 变量 的 函数 ， 这 些 函 数 通过 加 、 乘 因 式 得 到 。 i 

为 了 计算 对 于 给 定 观察 值 的 查询 变量 的 后 验 分 布 : 

1) 对 于 每 个 条 件 概 率 分 布 组 建 一 个 因 式 。 
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2) 消除 每 个 非 查询 变量 : 





。 如 果 变 量 能 被 观察 到 ， 在 变量 出 现 的 每 个 因 式 中 ， 其 值 被 设置 为 观察 值 。 


。 否则 ， 变 量 被 计算 出 来 。 
3) 将 其 余 的 因 式 相 乘 ， 并 标准 化 。 
为 了 从 因 式 fis oes Se 的 乘积 和 算出 变量 Z， 


ono un AUN- 





procedure VE _ BN(Vs, Ps, O, Q) 
Inputs 
Vs:: 变量 集合 
Ps: 代 有 条 件 概率 的 因子 集合 
Q: 某 些 变量 上 观察 值 的 集合 


含 Z 的 因 式 fais cots fe 两 部 分 ， 然 后 为 加 和 分 Q: 查询 变量 
N Outpu 
配 公 因 式 。 PEP 
Doi XX fe = fi Xo XH X (Df KK fa) 9: Local 
Z Z 10: Fs: 因子 集合 
VE 算法 明确 地 建立 了 最 有 因 式 (就 多 维 数组 ， |I Fee 
树 ， 规 则 集合 而 言 ) 的 表示 。 13, if X BEES) then 


图 6-8 给 出 了 VE 算法 的 伪 码 。 消 除 排序 能 够 
被 先 验 给 出 或 者 能 够 在 空间 中 被 计算 。 首 先 在 消除 
顺序 过 程 中 选择 观察 变量 是 很 有 价值 的 ， 因 为 消除 
这 些 变 量 能 够 简化 问题 。 

在 这 里 假设 查询 变量 没有 被 观察 到 。 如 果 一 个 
特殊 值 能 够 被 观察 到 ， 对 观察 值 来 说 ， 它 的 后 验 概 
率 是 1， 反 之 为 0。 

CG 6-20】 参照 例 6-10 的 查询 PC Tampering 
|Smoke = true A Report = true)。 消 除 观 察 变 量 
Smoke fil Report, HAMAR: 








for each FE Fy (Fs 包含 X)do 
set FH X 的 观察 值 到 O 〇 
BE FARRER 
else 
令 丁 为 Rs 中 因子 的 乘积 
N: =D;T 
Fs; =F; \ RsU {N} 
令 了 为 Rs 中 因子 的 乘积 
N: =T 
return T/N 





图 6-8 信念 网 络 的 VE 算法 








条 件 概率 

P( Tampering) fo (Tampering) 

P( Fire) Fi (Fire) 

P(Alarm| Tampering, Fire) fı Tampering, Fire, Alarm) 
P(Smoke= yes | Fire) f3 (Fire) 

P( Leaving | Alarm) fi lAlarm, Leaving) 
P(Report= yes | Leaving) f; (Leaving) 


算法 忽略 了 读 到 的 条 件 概率 并 且 仅仅 对 因 式 起 作用 。 临 时 因 式 并 不 总 是 表示 一 个 条 件 
概率 。 

设想 Fire 在 消除 排序 中 被 选择 。 为 了 消除 Fire, HRUE Fire 的 因 式 一 fi (Fire), 
f: (Tampering, Fire, Alarm), f: (Fire), ETHER, HEHEA ARASH Fire, 

调用 fs (Tampering，Alarm)。 在 这 一 阶段 ， 保留 下 面 的 因 式 : 

fo Tampering) ; 

fi (Alarm , Leaving ) 

Ff; (Leaving) 

fs (Tampering , Alarm) 
设想 下 一 步 要 消除 Alarm, VE 将 包含 Alarm 的 因 式 相 乘 ， 并 且 从 乘积 中 和 算出 Alarm, 
将 它 称 为 fr: 

fı (Tampering Leaving) = Duss (Alarm , Leaving) X f;( Tampering Alarm) 
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然后 有 下 面 的 因 式 : 
fo (Tampering ) 
f; (Leaving ) 
fı (Tampering , Leaving ) 


消除 因 式 中 的 Leaving 结果 : 


fa (Tampering) = > fs (Leaving) X f; (Tampering , Leaving ) 
Leaving 


为 了 决定 关于 Tampering 的 分 布 ， 将 其 余 的 因 式 相 乘 : 
fs (Tampering) = fy( Tampering) X fa( Tampering) 
KF Tampering 的 后 验 分 布 用 下 式 表示 : 
fs (Tampering ) 

bD i (Tampering ) 
注意 到 式 中 分 母 是 证 据 的 先 验 概率 。 < 

【 例 6-21) 考虑 到 和 前 面 例子 中 相同 的 网 络 环境 ， 对 于 下 面 的 查询 : 

P(Alarm | Fire = true) 

当 Fire 被 消除 时 ， 因 式 PCFEire) 变 成 了 一 个 不 含 变量 的 因 式 ， 它 仅仅 是 一 个 值 PC Fire= 
true). 

设想 下 一 步 要 消除 Report, MiETE—TPAR H, AX PCReport | Learning) RA. 
和 算出 所 有 的 Report 值 ， 这 样 就 得 到 了 关于 Leaving 的 一 个 因 式 ， 它 的 所 有 值 都 为 1。 
这 是 因为 对 于 任意 的 Leaving {A v, P(Report=true|Leaving =v) + P(Report= false | 
Leaving =v)=1, 

类 似 的 ， 如 果 下 一 步 要 消除 Leaving， 可 以 将 变量 值 为 1 的 因 式 和 因 式 PCLeaving | Alarm) 
相 乘 ， 然 后 计算 出 Leaving。 此 操作 再 一 次 产生 了 所 有 元 素 为 1 HAR. 

类 似 的 ， 消 除 Smoke 会 产生 不 含 变量 的 因 式 ， 它 的 值 为 1。 注意 到 即使 Smoke 已 经 被 
观察 到 ， 消 除 Smoke 将 导致 产生 不 含 变量 的 因 式 ， 这 一 点 并 不 会 影响 关于 Alarm 的 后 验 
分 布 。 

最 终 ， 只 存在 表示 其 先 验 概率 的 有 关 Alarm 的 因 式 ， 并 且 在 标准 化 过 程 中 常 因 式 将 
被 消除 。 < 

算法 的 复杂 度 取决 于 网 络 复杂 性 的 度量 。 用 表格 表示 的 因 式 的 大 小 和 因 式 中 变量 的 数 
目 呈 指数 。 对 于 给 定 的 消除 顺序 ， 网 络 的 树 宽 (treewidth) 是 因 式 中 变量 的 最 大 数目 ， 这 个 
因 式 是 在 特定 的 消除 顺序 下 通过 统计 变量 得 到 的 。 对 所 有 的 消除 顺序 而 言 ， 信 和 念 网 络 的 树 
宽 是 树 宽 的 最 小 值 。 树 宽 取 决 于 图 的 结构 并 且 它 是 图 稠密 度 的 一 个 度量 。VE 算法 的 复杂 
度 在 树 宽 上 呈 指 数 增长 ， 在 变量 数目 上 呈 线 性 增长 。 找 到 最 小 树 宽 的 消除 顺序 是 一 个 NP 
难 问 题 ， 但 是 正如 对 CSP VE 的 讨论 ， 存 在 一 个 好 的 消除 顺序 启发 式 算法 。 

存在 两 种 主要 的 方法 能 够 提高 算法 的 速度 。 其 一 是 对 于 给 定 的 观测 和 查询 ， 可 删除 不 
相关 变量 。 另外， 可 以 将 图 形 编译 成 二 级 结构 ， 该 结构 允许 高 速 缓存 的 图 形 值 。 


6. 4.2 通过 随机 模拟 进行 近似 推理 


许多 问题 由 于 太 复 杂 而 不 能 得 到 准确 的 推理 ， 并 且 我 们 必须 诉 诸 于 近似 推理 。 一 个 最 
有 效 的 方法 是 从 相关 的 网 络 的 后 验 分 布 中 得 到 随机 样 例 。 

随机 模拟 (stochastic simulation) 的 基本 思想 是 使 用 样 例 集 合计 算 概率 。 例 如 ，P(c) = 
0.14 意味 着 ，1 000 个 样 例 中 ， 约 140 个 中 的 a 值 为 真 。 你 可 以 从 样 例 中 得 到 概率 ， 也 可 
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以 根据 概率 分 析 样 例 。 

我 们 考虑 3 个 问题 : 

。 怎样 产生 样本 。 

。 怎样 纳入 观察 值 。 

。 怎样 根据 样本 推断 概率 。 

我 们 检验 了 3 种 ， 使 用 样本 计算 变量 后 验 分 布 的 方法 : DEERE: 2) 重要 性 采样 ; 
3) 粒 子 滤波 。 

1. 单个 变量 的 采样 

为 了 从 单个 离散 或 者 实数 变量 X 中 产生 样本 ,首先 将 X 域 中 的 值 排序 。 对 于 离散 变 
量 ， 如 果 没 有 常规 的 排序 要 求 ， 你 就 可 以 建立 一 个 任意 的 序列 。 考 虑 到 排序 ， 累 积 概率 分 
布 (cumnulative probability distribution) 是 关于 z 的 函数 ， 定 义 为 FFCz) 王 PCX 二 rz) 。 

为 了 产生 X 的 随机 样本 ， 从 区 间 [0，1j] 中 随机 选择 一 个 数 y。 为 了 确保 区 间 LO，1j 的 
每 个 数 有 相同 被 选择 的 机 会 ， 我 们 从 均匀 分 布 中 选择 y。v 表示 X 的 值 ， 累 积 概率 分 布 中 
它 以 某 种 规则 映射 到 y。 也 就 是 说 ，v 是 dom (XI) 的 元 素 即 Fu) 王 >y， 或 者 说 v 一 广 !(Cy)。 
然后 X= 二 v 是 X 的 一 个 随机 样本 ， 它 依据 X 的 分 布 被 选择 。 

[B 6-22) 随机 变量 X 的 域 为 {v1，wv。， 1 1 
vs Us}. WR PCX=v,)=0.3, P(X=v,) = 
0.4, P(CX=u,)=0.1, P(X=w)=0.2。 首 ENG 
先 ， 将 值 进行 排序 ，vwi 二 vs 二 vs 二 vw。 6-9 
显示 了 X 的 分 布 P(X) 和 XX 的 累积 概率 分 布 s% 
TSX). K f AERA Bl o 的 概率 是 0. 3。 
因此 ， 如 果 样 本 是 从 立轴 均匀 选择 的 ， mw 有 ， 

0. 3 的 概率 被 选择 ，w 有 0.4 的 概率 被 选择 ， eS a x ae 
依 此 类 推 。 < 图 6-9 ”累积 概率 分 布 

2. 信念 网 络 中 的 前 向 采样 

前 向 采样 是 信念 网 络 中 产生 每 个 变量 样本 的 一 种 方法 ， 因 此 每 个 样本 依 其 概率 成 比例 
HFE., BE Xs, o X, 是 变量 的 完整 排序 ， 因 此 在 变量 出 现在 完整 排序 中 之 前 ， 变 量 
的 父 节点 已 经 出 现 。 前 向 采样 通过 某 种 顺序 得 到 每 个 变量 的 XX;，…，X 的 样本 ， 进 而 得 
到 所 有 变量 的 样本 。 首 先 ， 使 用 上 述 算法 建立 XX, 的 样本 。 对 于 其 他 的 每 个 变量 ， 由 于 变 
量 的 整个 排序 ， 当 建立 X 的 样本 之 前 ，X; 的 父 节 点 的 样本 已 经 建立 。 已 知 X 的 父 节点 
已 被 赋值 时 ， 从 X; 的 分 布 中 为 X; 建立 样本 。 对 每 个 变量 重复 上 述 步骤 ， 进 而 产生 包含 所 
有 变量 的 样本 值 。 分 配 概率 是 选择 特殊 值 分 配给 所 有 变量 的 概率 。 

【 例 6-23〗 图 6-1 建立 了 信念 网 络 的 样本 集合 。 假 设 变量 排序 如 下 : Tampering, 
Fire, Alarm, Smoke, Leaving, Report, BREE BA HH we Tampering 
的 样本 。 假 设 选择 Tampering 二 False。 然 后 通过 相同 的 方法 为 Fire 建立 样本 。 假 设 选择 
Fire 一 上 rxe， 然 后 使 用 分 布 P(Alarm| Tampering = false, Fire=true) Xt Alarm 选择 一 个 
值 。 假 设 选择 Alarm = 二 true。 接 下 来 通过 使 用 P (Smoke | Fire 王 true) 为 Smoke 选择 一 个 
值 。 然 后 通过 使 用 分 布 P (Leaving | Alarm = true) 4 Leaving 选择 一 个 值 。 假 设 选择 
Leaving= false。 然后 通过 使 用 分 布 P (Report | Leaving = false) > Report 选择 一 个 值 。 
因此 为 每 个 变量 选择 一 个 值 并 且 创 建 图 6-10 的 第 一 个 样本 。 注 意 到 它 选 择 了 不 可 能 值 的 
一 个 组 合 。 这 并 不 经 常 发 生 ， 它 的 发 生 和 样本 程度 成 比例 。 重 复 直 到 有 足够 的 样本 。 
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图 6-10 中 产生 了 1000 个 样本 。 < 


Tampering Fire Smoke Leaving Report 





图 6-10 ”信念 网 络 的 采样 


3. 从 采样 到 概率 

从 样 例 集合 中 使 用 样本 均值 估 测 概率 。 命 题 a 的 样本 均值 (sample average) 是 包含 a 
为 真 的 样本 的 数目 除 以 总 的 样本 数目 。 随 着 在 大 数量 样本 的 分 布 中 样本 数目 接近 无 穷 值 ， 
样本 的 均值 也 就 越 接近 真实 的 概率 。 

已 知 交 个 数目 的 样本 ，Hoeffding 不 等 式 (Hoeffding's inequality) 提 供 了 非 条 件 概 率 误 
差 的 一 个 估 测 值 。 

命题 6. 6(Hoeffding) 设想 访 是 真 值 ，* 是 对 个 独立 样本 的 样本 均值 ， 那 么 

P(|s—pl>o< 2er? 

此 引 理 显示 了 拥有 多 少 样本 就 可 以 近似 得 到 概率 的 一 个 准确 的 估 测 值 。 为 了 保证 误 
差 e 二 0. 5， 我 们 需要 更 多 的 样本 。 然 而 ， 在 6 部 分 样本 中 ， 如 果 人 允许 大 于 的 误差 出 现 ， 
可 以 使 用 2e-” 二 8， 其 中 满足 下 面 不 等 式 ， 

lace 

n> 

例如 ， 想 要 使 误差 小 于 0.1， 也 就 是 说 ， 在 样本 的 5% 中 ， 仅 仅 愿 意 容 忍 误差 比 0.1 
大 一 点 。 可 以 使 用 Hoeffding 的 约束 ， 设 置 参数 s 王 0.1，8 王 0.05， 其 中 n>184, Alt, 
可 以 保证 在 185 个 样本 中 ， 对 出 现 的 误差 做 上 面 的 约束 。 如 果 想 要 使 至 少 95% 的 样本 中 ， 
误差 小 于 0. 01， 需 要 18 445 个 样本 。 若 想 要 使 99% 的 样本 中 ， 误 差 小 于 0. 1， 需要 265 个 
样本 。 

4. PERE 


MFI e BURMA FAW PC le): 


Pth Ae) 
P(e) 


仅 考 虑 e 为 真 的 那些 样本 进行 计算 ， 进 而 决定 为 真 的 那些 样本 在 上 述 样 本 中 所 占 的 
比率 。 合 选 采样 (rejection sampling) 的 基本 思想 是 像 之 前 一 样 产生 样本 ,但 是 需要 舍弃 包 
含 e 为 假 的 那些 样本 。 在 剩余 的 未 被 抛弃 的 那些 样本 中 ，h 为 真 的 样本 所 占 的 比例 是 Ph le) 
的 一 个 估 测 值 。 在 证 据 是 变量 赋值 的 组 合 条件 下 ， 样 本 中 被 赋值 的 任何 一 个 变量 值 与 观察 
值 不 同时 ， 此 样本 会 被 抛弃 。 

的 概率 的 误差 取决 于 没有 被 舍弃 的 样本 的 数目 。 没 有 被 舍弃 的 样本 的 数目 与 P(e) 
成 比例 。 因 此 ， 在 Hoeffding RER P, n 是 没有 被 拒绝 的 样本 的 数目 。 因 此 ， 误 差 取 
决 于 Ple). 





Pth|e) = 
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当 证 据 是 不 可 能 时 ， 舍 选 采样 不 会 发 生 作 用 ， 这 看 起 来 似乎 不 是 问题 ， 因 为 ， 通 过 定 
义 ， 不 可 能 的 证 据 不 可 能 会 发 生 。 虽 然 对 于 简单 模型 来 说 是 真 的 ， 但 是 对 于 带 有 复杂 观察 
值 的 复杂 模型 来 说 ， 每 一 个 可 能 的 观察 值 也 许 不 可 能 。 还 有 ， 对 许多 应 用 程序 ， 例 如 诊 
汤 ， 因 为 涉及 异常 的 观察 值 时 ， 用 户 对 确定 概率 感 兴趣 。 

【 例 6-24】 6-11 显示 了 人 怎样 使 用 舍 选 采样 估 测 P(Tampering | -Smoke A Report), 
任何 包含 Smoke=true 的 样本 都 会 被 舍弃 。 在 没有 考虑 任何 其 他 变量 的 情况 下 ,样本 被 合 
Fo BHAA Report= false 的 样本 。 我 们 使 用 剩余 样本 的 样本 均值 (标记 了 ~ TO 
关于 Tampering 的 后 验 概率 分 布 。 

因为 P( 一 Smoke 人 Report) 二 0.021 3， 我 们 预期 1 000 个 样本 中 ， 有 21 个 样本 会 被 舍 
弃 。 因 此 ，21 可 以 看 做 是 Hoeffding 不 等 式 中 的 n， 也 就 是 说 ,例如 ， 对 于 任意 的 概率 ， 
保证 63 冯 的 案例 中 这 些 样本 的 误差 小 于 0. 2。 


Tampering Smoke Leaving 
false true x 
false false false 








false true x 
false false false 
false false false 
false false false 
true true x 
true false false 


true true x 


图 6-11 对 于 P( Tampering | Smoke A Re port) W & VER FF Ei 





5 重要 性 采样 

除了 创建 一 个 样本 然后 舍弃 它 ， 可 以 将 采样 和 推理 混合 ， 进 而 推断 一 个 样本 被 舍弃 的 
概率 ， 此 方法 是 可 行 的 。 在 重要 性 采样 中 ， 每 个 样本 有 一 个 权重 ， 我 们 通过 使 用 加 权 的 样 
本 均值 来 计算 样本 均值 。 样 本 的 权 值 有 两 个 来 源 。 

。 样本 并 不 是 以 其 概率 成 比例 地 被 选择 ， 而 是 根据 其 他 的 分 布 一 一 建议 分 布 (pro- 

posal distribution) 被 选择 。 

。 使 用 证 据 更 新 权 值 和 计算 样本 被 舍弃 的 概率 。 

【 例 6-25) 变量 A 没有 父 节 点 ， 变 量 玉 只 有 一 个 父 节 点 A， 但 是 A 有 其 他 的 孩子 节 
点 。 假设 PCe|a)=0.03, Ple| -a)=0.63 H e 是 可 以 被 观察 的 。 考 虑 包含 A=true 的 那 
些 样 本 。 在 1 000 个 这 样 的 样本 中 ， 只 有 3 个 未 被 舍弃 。 除 了 舍弃 99.7%% 的 包含 A 一 true 
的 样本 ， 每 个 包含 AStrue 的 样本 可 以 加 权 0. 003。 因 此 ， 仅 有 一 个 样本 能 够 传递 关于 合 
弃 的 相关 信息 。 

假设 P(a) 二 0.98。 如 果 算 法 根据 概率 采样 ， 在 1 000 个 样本 中 ， 有 20 个 样本 中 包含 
A= false。 除 了 根据 概率 采样 外 ,假设 从 A=true 的 样本 中 采样 需要 50% 的 时 间 ， 但是， 
每 个 样本 加 权 如 下 。 包 含 A=true 的 样本 加 权 0. 98/0.5=1.96, 并且 A= false 的 样本 加 
权 0. 02/0. 5 一 0.04， 很 容易 可 以 计算 出 加 权 的 样本 均值 和 概率 是 相同 的 。 

在 舍 选 采样 中 ， 对 于 先前 的 概率 和 观察 值 e， 在 98% ARER A= true, .并 且 因 为 证 
据 e，99.7% 的 这 些 样本 将 会 被 舍弃 。A 二 false 将 会 被 选择 在 2% 的 样本 中 ， 并 且 37% 的 
这 些 样 本 将 会 被 舍弃 。 因 此 ， 爹 选 采 样 接 受 仅仅 0. 98 XX0.003 十 0.02X0.63 二 0.01554 的 
样本 ， 舍 弃 超 过 98% 的 样本 。 
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如 果 将 这 个 思想 融 人 例子 的 前 两 段 ， 一 半 的 样本 中 将 包含 A 二 true， 并且 这 些 样 本 可 
-以 加 权 1. 96 X0. 003=0. 005 88， 并 且 另 外 一 半 的 样本 中 将 包含 A= false， 它 们 可 以 加 权 
0. 04X0. 63=0. 025 2。 这 样 的 两 个 样本 可 以 传递 许多 舍弃 样本 的 信息 。 

重要 性 采样 和 舍 选 采样 在 两 个 方面 有 不 同 之 处 : 

。 重要 性 采样 并 不 对 所 有 的 变量 进行 采样 ， 只 是 针对 其 中 的 一 部 分 变量 。 没 有 被 采 

样 的 变量 和 没有 被 观察 到 的 变量 被 统计 出 来 (例如 ， 执 行 一 些 精 确 的 推论 )。 

特别 是 不 想 对 可 观察 变量 进行 采样 (然而 在 算法 中 ， 没 有 阻止 该 采样 ) 。 如 果 所 有 的 非 
观察 变量 都 被 采样 ， 那 么 很 容易 可 以 计算 出 已 知 证 据 的 样本 的 概率 (见习 题 6. 10) 。 

。 重要 性 采样 不 需要 根据 它们 的 先 验 概率 对 所 有 的 变量 进行 采样 ; 它 可 能 使 用 任意 

的 分 布 进行 采样 。 对 变量 采样 使 用 的 分 布 叫 做 提议 分 布 (proposal distribution)。 
任意 一 个 分 布 都 可 以 作为 提议 分 布 ， 只 要 该 提议 分 布 选择 一 些 样本 的 概率 不 为 0， 
这 在 模型 中 是 可 能 的 (否则 该 部 分 的 空间 将 不 会 被 利用 )。 选 择 一 个 好 的 提议 分 布 


是 很 重要 的 。 
一 般 的 ， 为 了 从 因 式 f(S)q(S) 中 统计 变量 S$， 可 以 从 分 布 g(s) 选 择 样本 集合 {s; ，…*，sw)。 
DOLD = lim (> HFG.) (6. 1) 


此 等 式 计 算 了 F(CS) 的 期 望 值 ， 在 这 里 期 望 大 于 了 分 布 OW. 

在 前 向 采样 中 ，g(s) 是 均匀 采样 ,但 是 式 (6. 1) 对 任意 分 布 都 成 立 。 

在 重要 采样 中 ，S 是 将 会 被 采样 的 变量 集合 。 正 如 在 VE 算法 中 ， 我们 引入 一 些 变量 
并 且 将 它们 统计 出 来 :在 这 种 情况 下 ， 我 们 对 采样 的 变量 求 和 : 

Pehle) = DJP(h|S,e)P(S|e) 


顶部 和 底部 同 乘 以 提议 分 布 9CS)， 有 
Pthle) = £ Pu |S eo PS leas 


注意 这 并 未 给 出 一 ARRS NRG: 如 果 g(s)=0, s 将 永远 不 会 被 选 作 一 个 样本 。 
使 用 式 (6. 1)， 假设 {si， setae sw} 是 所 有 样本 的 集合 : 


ER P(h|s, +e) PCs, |e) 
PCh |e) = $3 e o 


使 用 关于 PCs, le) 的 贝 叶 斯 规则 ，P(e) 是 一 个 常数 ， 有 
1 rÈ P(h|s,.e)PCe|s;)P(s,) 
qlsi) 

AP, k 是 一 个 标准 化 的 常数 ， E ere 值 的 后 验 概 
率 值 渐 近 到 1。 

因此 ， 对 于 每 个 样本 ， 权 值 PCs )/9(s) 就 如 同一 个 先 验 值 乘 以 证 据 的 概率 来 获得 给 定 
样本 的 权 值 。 已 知 多 个 样本 ， 前 面 的 公式 显示 了 怎样 通过 获得 每 个 样本 的 加 权 均 值 来 预测 
关于 任意 有 的 后 验 分 布 。 

需要 注意 重要 性 采样 如 何 概括 舍 选 采样 。 例 选 采 样 是 gq(s;) 二 Pls;) 的 情况 , FAS 
括 所 有 的 变量 ， 也 包含 观察 变量 。 

图 6-12 显示 了 对 于 已 知 查 询 变 量 Q 和 证 据 e, 为 了 计算 P(Q|e) 所 采用 的 重要 性 采样 
算法 的 详细 过 程 。 第 一 个 for 循环 (18 行 ) 显 示 了 创建 了 关于 S 的 样本 s。 变 量 p(21 行 ) 表 
mA s 的 权 值 。 算 法 更 新 了 查询 变量 的 每 个 值 的 权 值 ， 并 且 将 样本 s 的 概率 增添 到 变量 


Pl(h|e) = lim >- 
No 
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mass, AEH mass 代表 概率 和 (probability mass) 查询 变量 的 所 有 值 的 概率 的 总 和 。 最 
终 ， 通 过 查询 变量 的 每 个 值 的 权 值 除 以 概率 和 来 返回 概率 。 


l: procedure IS_ BN(Vs, P, e, Q, S, q, n) 
Inputs i 
Vs: 变量 集合 
P: 计算 条 件 概 率 的 过 程 
e: 证 据 ， 为 某 些 变量 赋值 
Q: 查询 变量 
S=({S,, ata» Si}: 抽样 变量 集合 
q: S 上 的 分 布 (提议 分 布 ) 
n: 产生 抽样 的 数目 
Output 
Q 上 的 后 验 分 布 
Local 
数组 vik], KH vw[ 让 dom(S,) 
实数 数组 anslm], m 是 dom(Q) 的 规模 
5: S 的 每 个 元 素 的 赋值 
mass; 一 0 
repeat times 
for i=1: k do 
select uiE dom(S;) 使 用 分 布 g(S;=w |So=v0» +» S-1=v-1) 
S: 三 赋值 So 一 ma . SHY 
p: =PCe|s)X P(s)/q(s) 
for each v; € dom(Q)do 
ans[i]: =ans[i]+P(Q=v,|SAe)Xp 
mass; =mass+ p 
return ans[ ]/mass 





图 6-12 ”信念 网 络 推理 的 重要 性 采样 


【 例 6-26】 假设 我 们 想 要 采用 重要 性 采样 来 计算 PCalarm |smoke \ report). WAL 
择 进 行 采样 的 变量 和 提议 分 布 。 假 设 对 Tampering, Fire 和 Leaving 进行 采样 ， 并 且 使 
用 下 面 的 提议 分 布 : 

ql(tampering) = 0. 02 

q( fire) = 0.5 

q(Alarm | Tampering, Alarm ) = P(Alarm | Tampering , Alarm) 

q( Leaving | Alarm) = P( Leaving | Alarm) 
因此 ， 除 了 Fire 外 ， 提 议 分 布 和 初始 分 布 是 一 样 的 。 

下 面 的 表 给 出 了 几 个 样本 。 在 这 个 表 中 ，* 是 样本 ; e 是 smoke A report; P(e|s)= 

263] P(smoke| fire) X P(report|Leaving), Ht Fire 和 Leaving 的 值 来 源 于 样本 ; 当 样 本 中 

Fire=true hf, P(s)/q(s)=0.02, H. Fire= false Wf, P(s)/q(s)=1.98; p=P(e|s) X 











P(s)/q(s) 是 样本 的 权重 。 
Tampering Fire P(s)/qs) p 
false true false true 0. 675 0. 02 0.0135 
true true true false 0. 009 0. 02 0. 000 18 
false false false true 0.007 5 1. 98 0. 014 85 
false true false false 0. 009 0. 02 0. 000 18 


P(alarm|smoke A report) B8 Alarm=true 的 样本 的 加 权 比 例 。 < 
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就 精确 性 怎样 依赖 于 运行 时 间 而 言 ， 算 法 的 效率 主要 取决 于 : 

。 提议 分 布 。 为 了 获得 最 好 的 结果 ， 提 议 分 布 应 该 尽 可 能 地 接近 后 验 分 布 。 然 而 ， 
Agent 一 般 不 能 直接 根据 后 验 分 布 进行 采样 ， 如果 可 以 ， 那 么 就 可 以 更 简单 地 产生 
后 验 概率 。 

。 对 哪些 变量 进行 采样 。 采 样 较 少 的 变量 意味 着 每 个 样本 中 包含 更 多 的 信息 ， 但 是 
每 个 样本 要 求 更 多 的 时 间 计 算 样 本 的 概率 。 

决定 提议 分 布 和 对 哪些 变量 进行 采样 是 一 种 艺术 。 

6. 粒子 滤波 

重要 性 采样 一 次 列举 一 个 样本 ， 针 对 每 个 样本 ， 对 每 个 变量 进行 赋值 。 也 可 以 始 于 所 
有 样本 ， 即 对 每 个 变量 所 包含 每 个 样本 生成 一 个 值 。 例 如 ， 对 于 图 6-10， 能 够 产生 相同 的 
数据 ， 即 通过 在 产生 Fire 值 之 前 产生 关于 Tampering 的 值 。 粒 子 滤 波 (particle filtering) 
算法 在 移动 到 下 一 个 变量 之 前 就 产生 关于 一 个 变量 的 所 有 样本 。 它 对 变量 进行 一 次 扫描 ， 
并 且 对 于 每 个 变量 扫描 一 次 所 有 的 样本 。 当 动态 地 产生 变量 时 ， 算 法 有 一 个 优势 ， 并 且 许 
多 变量 是 不 受 约束 的 。 它 也 允许 考虑 重新 采样 的 新 操作 。 

已 知 关于 某 些 变量 的 样本 集合 ， 重 新 采样 (resampling) 需 要 ”个 样本 ， 每 个 样本 有 自 
己 的 权 值 ， 并 且 产 生 个 样本 的 新 集合 ， 每 个 样本 有 相同 的 权 值 。 对 于 一 个 生成 的 随机 变 
量 ， 重 新 采样 采用 与 随机 采样 相同 的 方法 执行 ， 但 是 选择 的 是 样本 而 不 是 值 。 一 些 样本 被 
多 次 选择 ， 而 一 些 样 本 则 未 被 选择 。 

粒子 (particle) 由 变量 值 的 集合 和 相关 联 的 权 值 组 成 。 对 于 给 定 的 证 据 ， 命 题 的 概率 与 
命题 为 真 的 粒子 权 值 的 加 权 部 分 成 比例 。 粒 子 的 集合 是 一 个 种 群 (population) 。 

粒子 滤波 是 一 种 采样 方法 ， 它 起 始 于 一 个 粒子 种 群 ， 每 个 粒子 中 不 对 任何 变量 赋值 ， 
其 权 值 为 1， 在 每 一 步 它 能 够 : 

。 选择 一 个 没有 被 采样 或 者 被 总 结 的 变量 且 这 个 变量 没有 被 观察 过 。 对 于 每 个 粒子 ， 

它 根据 某 一 提议 分 布 对 变量 进行 采样 。 粒 子 权 值 的 更 新 和 重要 性 采样 中 的 一 样 。 

。 选择 一 个 证 据 来 吸收 。 在 这 之 前 证 据 应 该 没有 被 吸收 过 。 对 于 给 定 值 的 粒子 ， 粒 
子 的 权 值 和 证 据 的 概率 相 乘 (总 结 出 相关 的 和 没有 被 采样 的 任意 变量 )。 

。 对 种 群 进 行 重新 采样 。 重 新 采样 通过 从 种 群 中 选择 粒子 组 建 一 个 新 的 粒子 群 ， 每 
个 粒子 群 有 相同 的 权 值 ， 每 个 粒子 以 与 其 权 值 成 比例 的 概率 被 选择 。 一 些 粒 子 被 
iis, 一些 粒 子 被 重复 。 

在 没有 重新 采样 时 ， 重 要 性 采样 和 粒子 滤波 是 等 价 的 ， 但 是 主要 的 不 同 是 粒子 的 产生 
顺序 。 在 粒子 滤波 中 ， 针 对 每 个 变量 ， 对 所 有 的 样本 进行 采样 ， 然 而 ， 重 要 性 采样 是 在 下 
一 个 粒子 被 考虑 之 前 ， 每 个 粒子 (样本 ) 对 所 有 的 变量 进行 采样 。 

相对 于 重要 性 采样 ， 粒 子 滤 波 有 两 个 主要 的 优势 。 首 先 ， 它 能 使 用 无 穷 数 目的 变量 
后面 我 们 将 会 看 到 ) 。 第 二 ， 粒 子 能 够 很 好 地 覆盖 假设 空间 。 然 后 ， 重 要 性 采样 将 会 涉及 
一 些 低 概率 的 粒子 ， 仅 有 一 些 粒 子 能 够 覆盖 大 部 分 的 概率 团 ， 重 新 采样 使 得 一 些 粒 子 能 够 
更 均匀 地 覆盖 概率 团 。 | 

【 例 6-27] 对 于 图 6-1 中 的 信念 网 络 ， 使 用 粒子 滤波 计算 PCReport|smoke). WE; 
产生 粒子 5 ，…，s1ow。 例 如 ， 我 们 使 用 给 定 粒子 的 正在 被 采样 的 变量 的 条 件 分 布 作为 提 
议 分 布 。 设 想 对 Fire 进行 采样 。 在 1000 个 粒子 中 ,， 约 10 个 粒子 包含 Fire=true 且 约 990 
个 粒子 包含 Fire= false( 如 P(fire) 二 0.01)。 它 能 够 解释 证 据 Smoke 二 ture。 那 些 包 含 
Fire=true 的 粒子 可 以 加 权 0. 9( 如 P(smoke | Fire) 一 0.9) 并 且 包 含 Fire= false 的 粒子 可 
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以 加 权 0. 01( 如 P(smoke| Fire) 一 0.01)。 然 后 重新 进行 采样 ， 每 个 粒子 与 其 权 值 成 比例 
地 被 选择 。 包 含 Fire=true 的 粒子 将 以 990X0.01: 10X0.9 的 比率 被 选择 。 因 此 ， 约 524 
个 包含 Fire=true 的 粒子 将 会 被 选择 ， 其 余 的 粒子 包含 Fire false。 依 次 ， 其 他 的 变量 
被 采样 直到 Report 被 采样 。 < 
注意 ， 在 粒子 滤波 中 粒子 并 不 是 独立 的 ， 因 此 并 不 能 直接 应 用 Hoeffding 不 等 式 。 


6.5 概率 和 时 间 


我 们 对 动态 系统 进行 建 模 ， 并 将 其 作为 一 个 信念 网 络 ， 这 是 通过 在 一 个 特定 的 时 刻 将 
它 的 特征 作为 一 个 随机 变量 实现 的 。 首 先 就 状态 而 言 ， 我 们 给 出 了 一 个 模型 ， 然 后 显示 了 
它 怎 样 过 渡 到 特征 。 


6.5.1 马尔 可 夫 链 


马尔 可 夫 链 (Markov chain) 是 一 个 用 于 表示 值 序列 的 信念 网 络 的 特定 序列 ， 如 动态 系 
统 中 的 状态 序列 或 者 句子 中 的 词 序列 。 

图 6-13 显示 了 作为 信念 网 络 的 一 个 一 般 的 马尔 可 夫 链 。 网 络 不 必 停 留 在 状态 Si ， 但 
是 它 可 以 无 限 延 伸 。 信 和 念 网 络 传递 了 独立 性 假设 

P(S | Su.S.) = PCSas | S9) 
这 称 为 马尔 可 夫人 假设 (Markov assumption), 


图 6-13 马尔 可 夫 链 作为 信念 网 络 

通常 ，S, 表示 上 时 刻 的 状态 。 直 观 的 ，S, 传递 了 能 够 影响 未 来 状态 的 所 有 历史 信息 。 
在 S, 时 刻 ， 你 可 以 看 到 "对 于 现在 而 言 ， 未 来 条 件 独立 于 过 去 ”。 

如 果 每 个 时 间 点 的 过 渡 概 率 是 相同 的 ( 即 ， 对 任意 的 co, 二 0，P(S,41|S.,)= 
P(CS, 1S,))， 我 们 就 说 马尔 可 夫 链 是 静态 的 (Cstationary)。 为 了 详细 说 明 静 态 马尔 可 夫 
链 ， 必 须 先 说 明 两 个 条 件 概 率 

。 P(S,) 指 出 初始 条 件 。 

© P(S,: |S,) 说 明了 动态 性 ， 对 于 每 个 too, AAR. 

静态 马尔 可 夫 链 是 有 意义 的 ， 因 为 : 

。 它们 提供 了 很 容易 理解 的 一 个 简单 模型 。 

。 静态 假设 通常 是 自然 的 模型 ， 因 为 特殊 领域 的 动态 性 并 没有 随 着 时 间 而 改变 。 若 

动态 性 随 着 时 间 改 变 ， 这 是 因为 能 被 模型 化 的 其 他 特征 存在 。 

。 网 络 能 够 无 限 延 伸 。 较 少 的 参数 能 够 给 出 一 个 无 限 的 网 络 。 我 们 可 以 对 未 来 或 过 

去 的 任意 点 进行 查询 或 观察 。 

为 了 决定 状态 S 的 概率 分 布 ，VE 能 够 统计 以 前 的 变量 。 注 意 ，S; 后 面 的 变量 和 S, 
的 概率 不 相关 且 S 后 面 的 变量 不 需要 考虑 。 这 个 计算 作为 一 个 矩阵 乘法 被 说 明 ， 但 是 注 
意 到 和 矩阵 乘法 是 VE 的 一 个 简单 形式 。 类 似 的 ， 为 了 计算 P(S; |S), HP k>i, RZ 
前 的 变量 需要 考虑 。 


6.5.2 隐 马 尔 可 夫 模 型 
隐 马 尔 可 夫 模 型 (hidden Markov model，HMM) 是 包含 观察 值 的 马尔 可 夫 链 的 一 个 扩 
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展 版 本 。 正 如 马尔 可 夫 链 的 过 渡 状 态 一 样 ，HMM 也 包含 状态 的 观察 值 。 不 同 状态 的 观察 
值 部 分 能 够 映射 到 相同 的 观察 值 ， 并且 在 不 同 的 时 刻 相同 状态 的 噪声 能 够 随机 映射 到 不 同 
的 状态 。 

与 在 马尔 可 夫 链 中 一 样 ，HMM 下 的 假设 就 是 在 i 十 1 时 刻 的 状态 仅仅 与 上 时 刻 的 状态 
相关 。z 时 刻 的 观察 值 仅仅 与 上 时 刻 的 状态 有 关 。 我 们 可 以 使 用 t 时刻 的 变量 0, 对 观察 值 
进行 建 模 ， 观 察 值 的 域 是 所 有 可 能 观察 值 的 集合 。 图 6-14 显示 了 HMM 的 信念 网 络 表示 。 
虽然 显示 了 4 个 阶段 的 信念 网 络 ， 但 是 它 仍然 能 够 无 限 扩展 。 

静态 的 隐形 马尔 可 夫 模 型 包含 下 面 的 概率 分 布 : 

。 P(S,) 指 出 了 初始 条 件 。 

© PiS | S,) 说 明了 动态 性 。 

。 P(O.1S,) 详 细 说 明了 概率 模型 。 

HMM 中 存在 几 个 常见 的 问题 。 

信念 网 络 过 滤 (filtering) 或 者 监听 (monitoring) 问 题 就 是 决定 当前 的 状态 ， 这 个 状态 依 
据 当 前 或 者 先前 的 观察 值 。 也 就 是 决定 

P(S; |Oo,** ,0O;) 
注意 ， 状 态 S 后 的 所 有 状态 和 观察 值 是 不 相关 的 ， 这 是 因为 当 计 算 条 件 分 布 时 ， 它 们 并 
没有 被 观察 到 或 者 被 忽略 。 

平滑 (smoothing) 问 题 是 确定 依据 未 来 或 者 过 去 的 观察 值 的 状态 。 假 设 Agent 已 经 观 
察 到 z 时 刻 且 此 时 它 想 要 知道 i 时 刻 的 状态 ， 其 中 i 二 ,平滑 问题 就 是 决定 


PCS; |O,,*… On) 
Hp >k ht, MADEE S, A V: 能 够 被 忽略 。 
定位 


设想 一 个 机 器 人 想 要 根据 它 的 历史 行为 和 检测 信号 值 决定 它 的 位 置 。 此 问题 称 做 定位 
(localization) [a]. Al 6-15 显示 了 定位 问题 的 信念 网 络 表示 。 在 时 刻 i， 存 在 变量 Loc, 
Obs;、Act;， 它 们 分 别 表示 i 时刻 机 器 人 的 位 置 、 观 察 值 和 行为 。 在 这 一 部 分 ， 假 设 机 器 
人 的 行为 能 够 被 观察 到 (第 9 章节 介绍 这 种 情况 ) 。 





Ce) @ @ @ ©) Cm) Ge) Gy Ox) CH 


图 6-14 隐 马 尔 可 夫 模 型 作为 信念 网 络 图 6-15 用 于 定位 的 信念 网 络 


此 模型 有 如 下 的 动态 性 假设 : 在 i 时 刻 ， 机 器 人 位 置 在 Locr， 它 观察 到 Obs;， 然 后 采 
取 行 动 ， 观 察 到 行为 Act;， 在 i 十 1 时 刻 ， 它 在 位 置 Loc+i。 在 上 时 刻 ， 它 的 观察 值 仅 仅 依 
赖 于 上 时 刻 的 状态 。t 十 1 时 刻 机 器 人 的 位 置 依赖 于 上 时 刻 的 位 置 和 行为 。 给 出 上 时 刻 的 位 
置 和 行为 ，t 十 1 时 刻 它 的 位 置 条 件 独 立 于 以 前 的 位 置 、 以 前 的 观察 值 、 以 前 的 行为 。 

定位 问题 即将 机 器 人 的 位 置 作为 观察 历史 的 函数 : l 

PC Loc, | Obss +Acto sObs; ,Acti s**t Act »Obs,) 

【 例 6-28] 考虑 到 图 6-16 中 显示 的 域 。 存 在 一 个 循环 通道 ，16 个 位 置 从 编号 0 到 编 
号 15。 每 一 时 刻 ， 机 器 人 在 其 中 的 一 个 位 置 上 。 将 其 模型 化 ， 即 对 于 一 个 时 刻 i?， 存 在 一 
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个 变量 Loci, 域 为 0， Lis ma 15}. 


0 1 5 45S eT TT HURT WPS 
图 6-16 定位 域 


位 置 2、4、7 和 11 存在 门 。 
机 器 人 有 一 个 传感器 ， 可 以 识别 到 它 是 否 在 一 扇 门 前 。 模 型 化 即 对 每 个 时 刻 i。 对 
应 一 个 变量 Obs;, WH { door, nodoor}, RRA FMW AES : 

P(Qbs = door |atDoor) = 0.8 

P(Qbs = door | notAtDoor) = 0.1 
其 中 ， 在 状态 2、4、7、11 时 atDoor 为 真 ， 在 其 他 的 状态 notAtdoor AH. 

因此 ， 观 察 值 是 部 分 相关 的 ， 在 许多 状态 中 会 出 现 相同 的 观察 值 并 且 在 下 面 
的 方式 中 它 是 有 了 曲 声 的 : 在 20%% 的 情况 下 ， 机 器 人 在 一 肩 门 前 ， 但 是 传感器 却 虚 
假 地 给 出 一 个 消极 的 信号 。 在 10%% 的 情况 下 ， 机 器 人 并 不 在 一 扇 门 前 ， 但 是 传 感 
器 却 记录 此 时 存在 一 扇 门 。 
在 每 个 时 刻 ， 机 器 人 能 够 向 左 移 、 向 右 黎 、 静 止 不 动 。 假设 静止 不 动 具 有 决定 性 ， 
但 是 移动 的 动态 性 是 随机 的 。 它 能 够 实施 goRight 行为 并 不 意味 着 它 走 一 步 就 到 
右边 一 一 它 可 能 静止 不 动 ， 走 两 步 到 右边 或 者 以 任意 的 位 置 作为 终点 。 对 每 个 位 
BL, 假设 有 以 下 动态 性 : 

P( Loc, 一 工 |Act = goRight A Loc, = L) = 0.1 

P( Loc, = L+1| Act, = goRight A Loc, = L) = 0.8 

P(Loc = L+2| Act, = goRight A Loc, = L) = 0.074 

ste Hy Hh OL’, PUocm = L’ | Act, = goRight A Loc, = L) = 0.002 
所 有 的 定位 算法 以 16 为 模 。goLe 产 行为 以 同样 的 方式 运行 。 


机 器 人 起 初 在 一 个 未 知 的 位 置 ， 并 且 必 须 确 定 它 的 位 置 。 
域 看 起 来 似乎 有 歧义 性 ， 传 感 器 有 噪声， 动态 性 太 随 机 而 不 能 做 任何 事情 。 然 而 ， 对 


于 给 定 的 行为 和 观察 值 的 历史 记录 ， 计 算 机 器 人 当前 位 置 的 概率 是 可 能 的 。 


图 6-17 给 出 了 机 器 人 位 置 的 概率 分 布 ， 假 设 初 始 时 不 知道 机 器 人 位 置 的 任何 信息 ， 


并 且 机 器 人 经 历 下 面 的 观察 值 : 观察 到 门 ， 向 右 走 ， 没 有 观察 到 门 ， 向 右 走 ， 然 后 ， 再 观 
察 门 。 位 置 4 是 最 可 能 的 当前 位 置 , 拥有 0. 42 的 后 验 概率 分 布 。 也 就 是 说 ， 就 图 6-15 的 
网 络 而 言 : 


PlLocs = 4|Obss = door ,Aci = goRight ‚Obs, = nodoor， 


Act; = goRight ,Obhs; = door) = 0. 42 





列 和 观察 值 序列 后 ， 机 器 人 位 置 的 后 验 概率 分 布 。 柱 状 条 的 高 度 和 后 验 概率 成 比例 
位 置 7 是 第 二 个 可 能 的 当前 位 置 ， 具有 0. 141 的 后 验 概率 。 位置 0、1、3、8、12 和 
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15 则 是 最 不 可 能 为 当前 位 置 的 ， 它 们 具有 0. 011 的 后 验 概 率 。 a 
通过 使 用 书 中 介绍 的 网 站 的 小 程序 可 以 看 看 其 他 的 观察 序列 如 何 发 挥 作用 。 

【 例 6-29) 利用 另 一 个 传感器 讨论 例 6-28， 假 设 ， 除 门 传感器 外 ， 还 有 光 传 感 器 。 光 
传感器 和 门 传感器 独立 于 给 定 的 状态 。 假 设 光 传 感 器 信息 性 并 不 是 很 强 ， 无 论 它 是 否 能 够 
侦 测 到 任意 的 光 ， 它 仅仅 能 给 出 是 或 否 
的 信息 ， 并 且 这 是 有 噪声 的 ， 且 以 位 置 
为 基础 。 

9 6-18 使 用 了 下 面 的 变量 进行 建 模 : 

。 Loc, 是 机 器 人 在 上 时 刻 的 位 置 。 

。 Act, 是 机 器 人 在 上 时 刻 的 行为 。 oo 

*， D, 是 上 时 刻 的 门 传感器 值 。 

。 L, 是 上 时 刻 的 光 传 感 器 值 。 6-18 多 传感器 的 定位 

在 L: 和 D; 的 基础 上 ， 结 合 光 传 感 器 和 门 传 感 器 的 信息 ， 这 是 一 个 传感器 融合 (sensor 
fusion) 的 实例 。 对 于 给 定 的 信念 网 络 模型 ， 对 传感器 融合 来 说 ， 定 义 新 的 机 制 不 是 必要 
的 。 标 准 概 率 推理 结合 了 两 个 传感器 的 信息 。 < 


6.5.3 监听 和 平滑 算法 


为 了 实施 监听 和 平滑 ， 可 以 使 用 任意 一 个 标准 信念 网 络 算法 ， 例 如 VE 或 者 粒子 过 
滤 。 利 用 时 间 向 前 移动 的 事实 可 以 及 时 获得 观察 值 和 有 意义 的 当前 状态 。 
在 信念 监听 (belief monitoring) KF WH (filtering) 中 ， 给 出 历史 观察 值 的 前 握 下 ， 机 
器 人 可 以 计算 当前 状态 的 概率 。 就 图 6-14 中 的 HMM 而 言 ， 对 每 一 个 i，Agent 想 要 计算 
P(S; loo» ty OV) 其 表示 就 特殊 的 观察 值 Oo "O; 而 言 i 时 刻 的 状态 值 ， 通过 使 用 VE 
算法 可 以 很 容易 计算 出 来 : 
PCS; |005% r0) oc PCSi so yoi) 
=P(o; |S:)PCS; +00 3 50-1) 
=P(o, |S >7P(Si +Si-1 100 ,or1) 





(6. 2) 
一 P(o， |5,3 PCS, | Sit) PCS 500 +*** 505-1) 


ccP(o |S; ,Pres |S.) PCS |oo,…，ori) 


假设 Agent 已 经 根据 得 到 的 i 一 1 时 刻 以 前 的 观察 值 计算 出 概率 ， 也 就 是 说 ， 它 有 一 
个 表示 PSs | 00» Pay oD KWAR. 注意 到 ， 这 仅仅 是 关于 S- 1 的 因 式 。 为 了 计算 下 一 
个 概率 ， 它 将 这 个 因 式 乘 以 P(S; |S;_1)， 然 后 计算 出 S-o ARRUA Po |S), HA 
标准 化 。 

将 关于 SHARRUAR PCS |S;_1)， 然 后 计算 出 S-: 是 一 个 矩阵 乘法 (matrix 
multiplication) 。 将 结果 乘 以 Plo, |S;)， 这 被 称 为 点 积 (dot product), EREA ARE 
VE 的 简单 实例 。 

【 例 6-30) 考虑 到 例 6-28 中 的 域 。 门 的 观察 值 涉及 将 每 个 位 置 L 的 概率 乘 以 PCdoor| 
Loc 二 L)， 并 且 重 新 标准 化 。 对 于 每 个 状态 的 一 个 向 右 移动 ， 是 在 使 用 该 状态 下 的 概率 为 
状态 加 权 的 过 程 中 ， 对 右 移动 作 进行 的 向 前 模拟 。 < 

对 许多 问题 来 说 ， 状 态 空间 太 大 而 不 能 进行 准确 的 推理 。 对 那些 领域 来 说 ， 粒 子 过 滤 
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通常 是 有 效 的 。 对 临时 模型 来 说 ， 重 新 采样 通常 发 生 在 每 一 个 时 间 步 。 一 旦 观察 到 证 据 ， 
且 已 经 计算 出 样 例 的 后 验 概 率 ， 那么 他 们 就 能 够 被 重新 采样 。 
平滑 (smoothing) 是 指 在 HMM 中 ， 在 给 定 过 去 和 未 来 观察 值 的 条 件 下 ， 计 算 状 态 变 
量 的 概率 分 布 。 未 来 观察 值 的 使 用 有 助 于 得 到 更 准确 的 分 布 。 给 定 一 个 新 的 观察 值 ， 通 过 
使 用 VE 算法 扫描 一 次 所 有 状态 ， 进 而 更 新 所 有 先前 的 状态 评估 ， 此 方法 是 可 能 实现 的 ， 
271) ”见习 题 6. 11。 


6. 5.4 动态 信念 网 络 


不 必 把 特殊 时 刻 的 状态 当做 一 个 单独 的 变量 。 用 特征 表示 状态 是 很 自然 的 。 
动态 信念 网 络 (dynamic belief network，DBN) 是 一 个 带 有 常规 重复 结构 的 信念 网 络 。 
它 就 像 一 个 (隐形 的 ) 马 尔 可 夫 模 型 ， 但 是 状态 和 观察 值 用 特征 表示 。 假 设 ， 时 间 是 离散 
的 。 如 果 下 是 一 个 特征 ，F, 是 一 个 随机 变量 ， 其 表示 变量 下 在 t 时刻 的 值 。 一 个 动态 网 
络 包含 下 面 几 个 假设 : l 
。 每 个 时 刻 特 征 的 集合 是 相同 的 。 
。 对 于 任意 时 刻 oO, BHF, 的 父 节 点 是 上 时刻 的 变量 或 者 是 + 一 1 时 刻 的 变量 ， 因 
此 图 是 非 周 期 的 。 结 构 并 不 依赖 于 上 值 ( 除 上 一 0 是 一 个 特殊 的 时 刻 )。 
。 每 个 时 刻 :>0 时 ， 变量 怎样 取决 于 父 节点 的 条 件 概率 分 布 是 相同 的 。 
因此 ， 一 个 动态 的 信念 网 络 中 指出 了 t=0 时 刻 的 信念 网 络 ， 每 个 变量 F; FRM PCF, 
|parents(F,))， 在 这 里 ，F, 的 父 节点 是 相同 的 或 是 前 一 次 步 长 。 对 上 而 言 ， 这 作为 一 个 
自由 的 参数 被 指出 。 对 于 任意 SO 的 时 刻 ， 可 以 使 用 条 件 概率 ， 正 如 在 信念 网 络 中 ， 直 
接 的 循环 是 不 允许 的 。 
动态 信念 网 络 模 型 能 够 被 描述 为 一 个 两 步 信 和 念 网 络 ， 其 表示 最 初 两 次 (0 和 1) 的 变量 ， 
也 就 是 说 ， 每 个 特征 下 有 两 个 变量 Fo。 和 Fi ，parents(Fo) 仅 仅 包 括 t 二 0 的 变量 ，parents 
(Fi) 可 以 是 +t 为 0 或 者 1 时 刻 的 变量 ， 只 要 结果 图 是 无 环 的 。 和 网 络 相关 的 概率 是 PCF。 
| parents(F,))#l P(F, |parent(F1))。 因 为 重复 的 结构 ， 对 每 个 i, i>1, PCF; | parents 
(F;)) 有 与 PCF; | parents(F)) 完 全 相同 的 结构 和 相同 的 条 件 概 率 。 
[B 6-31] 假设 交易 Agent 想 要 对 商品 (例如 打 
印 纸 ) 交 易 价 格 的 动态 性 进行 建 模 。 为 了 表示 这 个 域 ， 
设计 者 对 影响 价格 的 变量 和 其 他 变量 进行 了 建 模 。 设 
想 纸浆 的 成 本 和 运输 成 本 直接 影响 纸 的 价格 。 运 输 成 
本 受 天 气 的 影响 ， 纸 浆 的 价格 受 树 虫 多 少 的 影响 ， 反 
过 来 它 也 受 天 气 的 影响 。 假 设 每 个 变量 依赖 于 先前 时 
间 步 的 值 。 图 6-19 显示 了 描述 这 些 依赖 关系 的 两 步 
动态 信念 网 络 。 
注意 ， 图 中 的 变量 初始 时 是 独立 的 。 
这 个 两 步 动 态 信念 网 络 能 够 被 扩展 成 为 一 个 常规 
的 动态 信念 网 络 ， 这 是 通过 复制 每 个 时 间 步 的 节点 来 
实现 的 ， 并 且 未 来 步 中 父 节 点 是 1 时 刻 变量 父 节 点 的 
一 个 复制 。 图 6-20 显示 了 一 个 扩展 的 信念 网 络 。 下 time=0 | time=1 
[272] 标 表示 变量 相关 的 时 间 。 6-19 ”纸张 价格 的 两 步 动态 信念 网 络 
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图 6-20 纸张 价格 的 扩展 动态 信念 网 络 < 


6.5.5 时 间 粒 度 


HMM 的 定义 和 动态 信念 网 络 中 存在 的 问题 之 一 是 模型 依赖 于 时 间 粒 度 。 时 间 粒 度 可 
以 是 固定 的 ， 例 如 一 天 或 者 一 秒 的 1/30， 当 然 它 也 可 能 是 基于 事件 的 ， 此 时 当 一 些 令 人 感 
兴趣 的 事情 发 生 时 ， 则 存在 一 个 时 间 步 。 如 果 时 间 粒 度 发 生变 化 ， 如， 从 天 到 小 时 ， 那 么 
条 件 概率 也 必须 发 生 改 变 。 

独立 于 时 间 粒 度 的 一 种 动态 建 模 方式 是 针对 每 个 变量 和 每 个 变量 的 值 进 行 建 模 ， 即 
模拟 : 

。 变量 的 值 预期 要 保留 的 时 间 。 

。 当 值 发 生变 化 时 ， 它 将 会 转变 为 什么 值 。 

如 果 给 定 离散 化 的 时 间 和 状态 转移 的 时 间 模 型 ， 如 指数 衰减 ， 根 据 这 些 信息 就 可 以 构 
建 动态 信念 网 络 。 如 果 时 间 的 离散 化 足够 精细 ， 和 忽略 每 个 时 间 步 的 多 值 转移 ， 由 此 产生 的 
误差 会 很 小 。 见 习题 6. 12 。 


6.6 本 章 小 结 


。 概率 可 以 在 不 确定 的 情况 下 用 于 决策 。 

。 后 验 概 率 基 于 证 据 来 更 新 Agent 的 信念 。 

。 贝 叶 斯 信念 网 络 可 以 用 来 描述 域 的 独立 性 。 

， 可 以 对 稀 朴 图 ( 低 树 宽 ) 实 现 精确 推理 。 

。 随机 模拟 可 用 于 近似 推理 。 

。 隐 马 尔 可 夫 模 型 或 动态 信念 网 络 可 用 于 适时 的 概率 推理 ， 比 如 定位 。 


6.7 参考 文献 及 进一步 阅读 


人 工 智 能 的 角度 介绍 概率 论 和 ( 贝 叶 斯 ) 信 念 网 络 ， 参 考 了 Darwiche[2009]、LKoller 和 Friedman, 
2009], Pearl[1988], Jensen[1996], Castillo, Gutiérrez 和 HadiL1996] 的 介绍 Halpern[1997] 综 述 了 逻辑 与 
概率 之 间 的 关系 。Bacchus、Grove、Halpern 和 Koller[1996] 对 于 概率 推理 提出 了 一 种 随机 世界 的 方法 。 
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在 Zhang 和 PooleL1994]、DechterL1996] 的 文章 提出 变量 消除 的 方法 来 评估 信念 网 络 。Bodlaender 
[1993] 探 讨 了 树 宽 问 题 。 

信息 理论 的 综述 可 以 参阅 文献 Cover、Thomas[1991] 和 Grünwald[2007]. 

对 于 因果 关系 的 讨论 可 以 参阅 文献 Pearl[2000] 和 Spirtes 等 [2000] 。 

对 于 随机 模拟 的 介绍 可 以 参阅 文献 Rubinstein[ 1981], Andrieu, de Freitas, Doucet 和 Jordan 
L2003]。 信 和 念 网 络 中 的 前 向 采样 是 基于 文献 HenrionL1988] 的 ， 文 中 称 为 逻辑 采样 。 这 里 所 描述 的 信念 网 
络 的 重要 性 采样 是 基于 文献 Cheng 和 Druzdzel[2000] 的 ,文中 还 考虑 到 如 何 学 习 提议 分 布 。 文 献 Doucet, 
de Freitas 和 Gordon[ 2001] 是 一 系列 的 关于 粒子 滤波 的 文章 。 

隐 马 尔 可 夫 模 型 参见 文献 Rabiner[1989], Dean 和 Kanazawa[ 1989] 介 绍 了 动态 贝 叶 斯 网 络 。Thrun、 
Burgard 和 Fox[L2005 描述 了 有 关 概 率 和 机 器 人 学 之 间 关 系 的 马尔 可 夫 定 位 及 其 相关 问题 。 定 位 方面 粒子 
滤波 的 使 用 参阅 文献 Dellaert、Fox、Burgard 和 Thrun[ 1999 ]。 

有 关 人 工 智能 的 不 确定 性 ， 在 年 会 和 普通 的 AI 会议 上 会 提出 最 新 的 研究 成 果 。 


6.8 习题 


6.1 只 使 用 概率 公理 和 条 件 独立 性 的 定义 证 明 命题 6. 5。 
6.2 考虑 图 6-21 中 的 信念 网 络 ， 其 中 电气 领域 延伸 到 包括 高 射 投影 仪 。 回 答 以 下 关于 一 些 变 量 的 值 如 
何 影 响 到 另 一 些 变量 信念 的 知识 的 问题 : 
(a)“ 投 影 仪 电源 插座 接 通 ”的 值 的 知识 对 “sam 读书" 值 的 信念 能 产生 影响 吗 ? 请 做 出 解释 。 
(b)“ 屏 幕 亮 ”的 知识 对 “sam 读书 ”的 信念 有 影响 吗 ? 请 做 出 解释 。 
Co) 如果 给 出 你 已 经 观察 到 “屏幕 亮 " 的 值 , “投影 仪 电源 插座 接 通 ”的 知识 会 对 “sam 读书 ”的 信念 产 
生 影 响 吗 ? 请 做 出 解释 。 
(D 如 果 只 是 观察 到 “ 灯 正 常 *， 哪 些 变量 可 以 改变 它们 的 概率 ? 
Co) 如 果 只 是 观察 到 “投影 仪 通电 ”， 哪 些 变 量 可 以 改变 它们 的 概率 ? 


ray 说 “屏幕 是 黑 的 ” 





图 6-21 高 射 投影 仪 信念 网 络 
6.3 使 用 信念 网 络 表示 习题 5.8 中 的 情形 。 显 示 网 络 结构 并 隐藏 观察 到 的 节点 。 给 出 所 有 初始 因 式 ， 对 
于 条 件 概率 作出 合理 的 假设 (应 该 遵循 习题 中 的 情节 ,但 允许 一 些 噪音 )。 
6.4 ”假设 要 诊断 出 当 加 入 多 位 二 进 制 数 时 在 校 学 生 所 犯 的 错误 。 假设 只 考虑 增加 两 个 两 位 数字 ， 以 形成 
一 个 三 位 数字 。 
也 就 是 说 ， 问 题 的 形式 为 : 
A, Ay 
+ B, Bo 
Ca Cu Co 
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Hp. An BAC, 是 所 有 二 进 制 数字 。 

(a) 假设 我 们 想 要 模拟 学 生 是 否 知道 二 进 制 加 法 以 及 他 们 是 否 知道 如 何 运 算 。 如 果 他 们 知道 ， 他 们 
通常 会 得 到 正确 的 答案 ,但 有 时 他 们 会 犯错 误 。 如 果 他 们 不 知道 如 何 做 相应 任务 ,他 们 就 只 能 
猜测 。 

你 必须 指出 建立 二 进 制 加 法 模型 ， 哪 些 变量 是 必需 的 ， 哪 些 错误 是 学 生 会 犯 的 ， 也 就 是 说 ， 每 
个 变量 代表 什么 。 给 出 一 个 DAG 指定 这 些 变量 依赖 关系 。 

(Cb) 对 域 来 说 ， 什 么 是 合理 的 条 件 概 率 ? 

(c) 可 以 通过 使 用 AIspace. org 信念 网 络 工具 来 实现 。 测试 不 同情 况 下 你 的 表示 。 

给 出 图 来 解释 每 个 变量 的 含义 、 给 出 概率 表 ， 并 且 展 示 各 种 例子 如 何 运作 。 

6.5 在 这 个 问题 中 ,你 要 构建 一 个 在 习题 5. 10 描述 的 深 空 一 号 飞船 (DS1) 的 信念 网 络 表示 。 图 5-14 描 
述 了 实际 DS] 发 动机 设计 的 一 部 分 。 276 
假设 以 下 情形 : 

* fl) Fy fe open 或 closed 。 

。 如 果 阀 门 处 于 打开 状态 ， 气 体会 流出 ， 如 果 阀 门 处 于 关闭 状态 气体 不 会 流出 ， 此 时 它 的 值 都 为 
ok; 气体 永远 都 不 会 流出 的 情况 下 ， 它 的 值 为 broken; 不 论 阀门 是 打开 还 是 关闭 ， 气 体 都 会 独 
立 流出 ， 它 的 值 为 stuck; MEMRAM MTA BIA. ERLE leaking. 

。 有 三 个 气体 传感器 能 够 探测 到 气体 港 漏 (但 不 会 探测 出 是 哪 种 气体 )。 第 一 个 气体 传感器 检测 来 
自 最 右边 的 疾 门 (zl ，…， 妈 ) 中 的 气体 ， 第 二 个 气体 传感器 检测 来 自 中 间 阔 门 (5，…，zl12) 的 
气体 ， 第 三 个 气体 传感器 检测 来 自 最 左边 阀门 (vl3，…， 也 6) 的 气体 。 

(a) 建立 一 个 域 的 信念 网 络 表示 。 必 须 考虑 到 最 上 面 的 阀门 (那些 送 人 发 动机 el 的 阀门 )， 确 保有 适 
当 的 概率 。 

Cb) 在 一 些 特殊 例子 中 测试 你 的 模型 。 

6.6 考虑 下 面 的 信念 网 络 : 





其 布尔 变量 (将 A 二 trus 记 为 a， 将 A= false 记 为 ~a) 和 条 件 概 率 如 下 : 
P(a) = 0.9 P(d|b) = 0.1 
Pb) = 0.2 P(d| 76) =0.8 
P(cla.b) =0.1 Plelc) = 0.7 
P(cla,76) = 0.8 Ple| 7c) = 0,2 
P(c| ma:b) = 0.7 P(f|c) = 0.2 
P(c| 7a,76) =0.4 P(f| 70) =0.9 
(a) 使 用 VE 来 计算 P(e)。 首 先 ， 删除 无 关 变 量 。 对 于 给 定 的 消除 顺序 显示 创建 的 因 式 。 
(b) 假设 使 用 VE 来 计算 P(e| -=-f)。 以 前 计算 有 多 少 可 重复 利用 ? 显示 出 不 同 于 (a) 部 分 中 的 


因 式 。 
6.7 解释 如 何 拓展 VE 来 允许 更 多 的 普通 观察 和 查询 。 特 别 的 ， 请 回答 以 下 问题 : 
(a) 如 何 拓展 VE 算法 以 允许 变量 值 的 析 取 (例如 ，X 一 aV X= b 这 种 格式 )? 


Cb) 如 何 拓展 V 卫 算法 以 观察 不 同 变量 值 的 析 取 (例如 ，X 一 aVY 一 2 这 种 格式 )? 
(c) 如 何 拓展 VE 算法 来 允许 计算 一 组 变量 的 边缘 概率 (例如 ,求解 PCXY|e) 的 边缘 概率 )? 
6.8 在 核 研究 潜艇 中 ， 传 感 器 测量 反应 堆 堆 芯 的 温度 。 如 果 传 感 器 读数 异常 高 (S 二 true)， 表明 核心 这 
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6.9 


6.11 


热 (C= 二 true)， 就 触发 报警 (A 二 true)。 报 警 嚣 或 传感器 有 人 缺陷 (S_ok 二 false，A_ok 二 false)， 这 可 
能 会 导致 它们 出 现 故 障 。 可 以 通过 图 6-22 中 的 信和 念 网 络 来 建立 报警 
系统 的 模型 。 

(a) 此 网 络 中 的 初始 因 式 是 什么 ? 对 于 每 个 因 式 ， 列 出 它 代表 什么 ， 
它 是 什么 变量 的 函数 。 

(b) 给 出 报警 器 无 故障 ， 即 P(c| -~a) 的 情况 下 如 何 使 用 VE 来 计算 核 
心 过 热 的 概率 。 对 于 每 个 消除 的 变量 ， 说 明 哪 些 变量 被 消除 ， 哪 
些 因 式 被 移 除 ， 又 建立 了 哪些 因 式 ， 包 括 每 个 因 式 作 用 在 什么 变 
量 ， 解 释 如 何 通过 最 后 一 个 因 式 获 得 答案 。 

(c) 假设 我 们 又 添加 一 个 相同 的 传感器 到 系统 中 ， 当 两 个 传感器 中 任 
何 一 个 读 到 高 温 时 就 触发 报警 器 。 两 个 传感器 坏 掉 或 是 读 取 失 败 图 6-22 核潜艇 的 信念 网 络 
都 是 相对 独立 的 。 给 出 相应 的 扩展 信念 网 络 。 

继续 习题 5. 14。 

(a) 解释 一 个 信念 网 络 模型 需要 的 知识 (关于 物理 的 和 学 生 的 )? 

(b) 在 域 中 使 用 信念 网 络 ( 使 用 诱导 性 诊断 或 基于 一 致 性 的 诊断 ) 的 主要 优势 是 什么 ? 

(c) 在 此 域 中 与 使 用 信念 网 络 相 比 ， 使 用 诱导 性 诊断 或 基于 一 致 性 诊断 的 主要 优势 是 什么 ? 

在 重要 性 采样 中 ， 采 样 每 个 非 观 察 变 量 ， 不 需要 全 面 执行 VE 算法 。 在 这 种 情况 下 给 出 证 据 ， 解 

释 如 何 计 算 采 样 的 概率 。【 提 示 : 注意 抽取 子 节 点 以 及 可 观察 变量 的 父 节点 都 是 可 能 的 .】 

考虑 隐 马 尔 可 夫 模 型 中 的 滤波 问题 。 

(a) 对 于 某 给 定 未 来 与 过 去 观察 结果 的 变量 X;， 给 出 概率 公式 。 公 式 应 包含 一 个 来 自 先前 状态 的 
因 式 ， 一 个 来 自 后 续 状 态 的 因 式 ， 它们 相 结 合 决 定 X 的 后 验 概率 。X;-! 需 要 的 因 式 在 没有 重 
PRK YUMA, MATH? Gen: 考虑 删除 最 左边 的 变量 ， 也 删除 最 右边 的 
变量 ， 如 何 用 VE 来 计算 X; 的 后 验 分 布 .】 

b) 假设 已 计算 出 每 个 状态 S, eo S 的 概率 分 布 ， 然 后 得 到 时 刻 & 十 1 的 观察 。 每 个 变量 的 后 
验 概率 在 时 间 & 是 如 何 线性 更 新 的 ?【 提 示 : 需要 存储 的 不 仅 是 每 个 S 上 的 分 布 .】 

考虑 产生 动态 信念 网 络 的 问题 。 正 如 第 6. 5. 5 节 中 一 样 ， 给 定 一 个 特定 的 离散 化 时 间 、 过 渡 时 间 

和 状态 转移 的 表示 。 假 设 存在 一 个 变量 在 一 个 状态 中 能 保持 时 间 的 指数 分 布 ， 并且 指定 了 每 个 变 

量 值 的 半衰期 。 给 出 动态 信念 网 络 的 表示 ， 假 设 每 一 时 间 步 内 仅 有 一 个 过 渡 。 

假设 你 的 老板 对 背 着 相机 、 绕 着 工厂 的 机 器 人 定位 感 兴趣 。 老 板 听 过 变量 消除 、 舍 选 采 样 、 粒 子 

滤波 的 知识 ， 想 知道 这 些 技术 中 哪个 最 适合 此 项 任务 。 你 必须 给 老板 写 一 份 报告 (使 用 适合 的 语 

句 )， 说 明 哪 种 技术 是 最 适合 的 。 解 释 为 什么 放弃 另外 两 种 技术 。 对 于 最 合适 的 技术 ， 说 明 使 用 这 

种 技术 定位 必需 的 信息 是 什么 。 

(a) VE( 即 隐 马 尔 可 夫 模 型 中 的 精确 推理 ) 。 

(b) RARE. 

(c) 粒子 滤波 。 
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学 习 概述 与 有 监督 学 习 





年 轻 时 荒废 学 业 的 人 ， 失 去 的 不 仅 是 过 去 的 时 光 ， 还 有 他 的 未 来 。 
Euripides( 公 元 前 484 一 前 406， 十 希腊 悲剧 作家 ) 
《 佛 里 克 索 斯 》，Frag. 927 





学 习 指 的 是 一 个 Agent 基于 经 验 改善 其 行为 的 能 力 。 这 意味 着 Agent 能 够 : 

。 扩展 活动 的 范围 做 得 更 多 。 

。 提高 任务 的 精确 性 一 一 做 得 更 好 。 

。 提高 处 理 速度 一 一 做 得 更 快 。 

学 习 是 一 个 智能 Agent 的 必 备 能 力 。 正 如 Euripides 指出 的 那样 ， 学 习 涉 及 一 个 Agent 
以 某 种 方式 记 住 在 未 来 能 派 上 用 场 的 过 去 经 验 。 

本 章 介 绍 有 监督 学 习 : 给 定 一 组 由 输入 -输出 对 组 成 的 训练 样本 ， 预 测 一 个 新 输入 所 
对 应 的 输出 。 我 们 将 说 明 这 种 学 习 方式 可 由 4 种 途径 加 以 实现 : 选择 单一 的 完美 适应 训练 
样本 的 假设 ; 从 训练 样本 直接 做 出 预测 ; 选择 与 训练 样本 一 致 的 假设 空间 的 子 集 ; 寻找 条 
件 依赖 于 训练 样本 的 假设 的 后 验 概率 分 布 。 

第 11 章 介 绍 有 监督 之 外 的 学 习 模 型 ， 包 括 聚 类 (经 常 被 称 做 无 监督 学 习 ) 、 概 率 模 型 
与 增强 学 习 。14. 2 节 介绍 关系 表示 学 习 。 


7.1 学 习 问 题 


任 一 个 学 习 问 题 均 由 下 述 三 个 部 分 组 成 : 
任务 (task): 欲 改 善 的 行为 或 任务 。 
数据 (data) : 用 于 在 任务 中 提升 性 能 的 经 验 。 
性 能 改善 度量 (measure of improvement): 性 能 改善 是 如 何 度量 的 ? 例如 ， 获 得 了 最 
初 不 具备 的 新 技能 ， 提 高 了 预测 的 准确 率 ， 或 是 提高 了 处 理 的 速度 等 。 
考虑 如 图 2-9 所 示 的 Agent 内 部 构造 ， 学 习 就 是 输入 先 验 知识 和 数据 (例如 ， 有 关 
Agent 经 验 的 数据 ) 并 形成 一 种 内 部 的 表示 形式 (知识 库 )， 这 种 表示 可 以 被 Agent 在 行动 时 
加 以 利用 。 
这 种 内 部 表示 可 以 是 原始 的 经 验 数据 本 身 ， 但 更 为 常见 的 是 对 数据 进行 概括 的 简洁 表 
示 。 基 于 样 例 推断 内 部 表示 的 过 程 经 常 被 称 为 归纳 (induction) 。 与 之 对 应 的 一 个 概念 是 演 
绎 ， 它 从 知识 库 经 由 逻辑 推理 得 到 结论 ;与 之 对 应 的 另 一 个 概念 是 溯 因 推理 ， 它 假定 对 于 
一 个 特例 来 说 什么 可 能 是 正确 的 。 
在 选择 表示 形式 的 时 候 ， 存 在 两 种 相互 矛盾 的 准则 : 
。 表示 形式 越 丰 富 ， 对 后 续 的 问题 求解 就 越 有 用 。 对 Agent 学 习 问 题 求 解 方法 来 说 ， 
表示 形式 必须 足够 丰富 以 便 能 够 表达 这 种 求解 方法 。 
。 表示 形式 越 丰 富 ， 学 习 就 越 困难 。 非 常 丰富 的 表示 形式 难于 进行 学 习 的 原因 是 它 
需要 大 量 的 数据 ， 而 且 经 常 存在 不 同 的 假设 与 这 些 数据 一 致 。 
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智能 所 需 的 表示 形式 是 两 种 准则 之 间 的 一 种 折 中 ( 见 1. 4 节 )。 学 习 表 示 形 式 的 能 力 是 
智能 的 一 种 ， 但 绝 不 是 唯一 的 一 种 。 

学 习 技 术 包括 如 下 一 些 议题 : 

任务 : 实际 上 ，Agent 能 够 获得 数据 或 经 验 的 任意 任务 均 可 学 习 。 最 常见 的 学 习 任 务 
是 有 监督 学 习 (supervised learning)， 即 给 定 一 些 输入 特征 、 一 些 输出 特征 和 一 个 训练 集 
(training example) (其 中 的 每 个 样 例 都 指定 了 输入 特征 和 输出 特征 的 值 )， 预 测 一 个 新 样 例 
〈 其 输入 特征 值 已 知 ) 的 目标 特征 值 。 当 目标 变量 取 离 散 值 的 时 候 ， 这 种 学 习 称 为 分 类 
(classification); 而 当 目 标 变量 取 连 续 值 的 时 候 ， 则 称 为 回归 (regression) 。 

其 他 学 习 任 务 包括 : 训练 样本 类 别 未 知 时 的 分 类 学 习 ( 无 监督 学 习 ) 、 基 于 奖惩 的 学 习 
(增强 学 习 ) 、 学 习 更 快 推理 (分 析 学 习 )， 以 及 学 习 更 为 丰富 的 表示 形式 如 逻辑 程序 (归纳 
逻辑 编程 ) 或 贝 叶 斯 网 络 。 

RR: 学 习 任 务 可 以 通过 施加 于 学 习 器 的 反馈 来 描述 。 在 有 监督 学 习 中 ， 用 于 学 习 的 
每 个 样 例 均 已 被 指定 了 类 别 。 当 一 个 训练 器 给 出 每 一 个 样 例 的 分 类 时 就 产生 了 监督 分 类 。 
当 Agent 获得 了 对 于 每 个 动作 (活动 ) 的 价值 的 即刻 反馈 时 就 产生 了 动作 (活动 ) 的 监督 学 
习 。 当 没有 给 定 类 别人 信息， 学 习 器 必须 自己 发 现 数据 中 的 类 别 和 规则 时 发 生 无 监督 学 习 
(unsupervised learning) 。 反 馈 经 常 发 生 于 这 两 种 极端 情况 ( 即 有 监督 学 习 与 无 监督 学 习 ) 
之 间 ， 例 如 在 增强 学 习 (reinforcement learning) 中 ， 基 于 奖 迁 的 反馈 发 生 在 一 系列 动作 之 
后 。 这 会 带 来 所 谓 的 “信任 度 分 配 问 题 ”(credit-assignment problem)， 即 确定 动作 的 奖赏 
或 惩罚 问题 。 举 个 例子 ， 用 户 可 能 奖励 一 个 传送 机 器 人 但 并 没有 确切 告知 是 因为 什么 而 获 
奖 ， 此 时 机 器 人 就 必须 学 习 获 奖 的 原因 ， 即 在 什么 条 件 下 执行 什么 动作 。 在 没有 明确 哪些 
动作 的 后 果 会 带 来 奖赏 的 情形 下 ， 学 习 执 行 什么 动作 是 可 能 的 。 

RA: Agent 的 经 验 必 然 影 响 其 内 部 表示 形式 。 许 多 机 器 学 习 方法 的 研究 就 是 基于 特 
定 表示 形式 (决策 树 、 神 经 网 络 或 案例 等 ) 的 。 本 章 介 绍 一 些 标 准 的 表示 形式 以 展示 学 习 的 
共同 特征 。 

在 线 学 习 与 离线 学 习 : 在 离线 学 习 (offline learning) 中 ， 所 有 的 训练 样本 在 Agent 行 
动 之 前 就 已 经 给 定 。 而 在 在 线 学 习 (online learning) 中 ， 训 练 样本 在 Agent 行动 中 到 达 。 
这 需要 Agent 在 它 观察 到 所 有 的 样本 之 前 就 具有 某 些 关于 已 经 观察 到 的 样本 的 表示 的 知 
识 ， 当 一 个 新 样本 来 临时 更 新 这 种 表示 。 总 之 ，Agent 从 没 看 到 所 有 的 样 例 。 主 动 学 习 
(active learning) 是 在 线 学 习 的 一 种 形式 ,在 这 种 学 习 中 Agent 通过 行动 获得 对 学 习 有 用 
的 样 例 ， 即 Agent 推断 哪些 样 例 是 对 学 习 有 用 的 并 收集 这 些 样 例 。 

BE. 学 习 基 于 某 些 提升 性 能 的 度量 来 定义 。 为 了 知道 Agent 是 否 成 功 学 习 ， 必 须 定 
义 一 些 学 习 成 功 与 否 的 度量 。 这 种 度量 往往 不 是 考察 Agent 在 训练 样本 上 的 表现 好 坏 ， 而 
是 对 于 新 样本 它 表现 如 何 。 

在 分 类 学 习 中 ， 能 够 正确 分 类 所 有 的 训练 样本 并 非 问题 的 本 质 所 在 。 例 如 ， 考 虑 一 个 
给 定 样 本 集 的 布尔 特征 预测 问题 ， 并 假设 有 两 个 Agent， 即 P 和 NN。P 认为 属于 负 类 的 样 
本 就 是 训练 集中 的 负 样 本 ， 其 他 样本 (包括 不 在 训练 集中 的 样本 ) 均 为 正 样本 ; N 则 认为 属 
于 正 类 的 样本 就 是 训练 集中 的 正 样本 ， 其 他 样本 (包括 不 在 训练 集中 的 样本 ) 均 为 负 样本 。 
显然 ， 它 们 都 正确 地 分 类 了 训练 集中 的 每 一 个 样本 ， 但 对 于 其 他 样本 的 分 类 则 是 相互 矛盾 
的 。 学 习 是 否 成 功 ， 不 能 看 正确 分 类 了 训练 样本 与 否 ， 而 是 要 看 是 否 能 够 正确 分 类 还 未 出 
现 的 样本 。 因 此 ， 一 个 学 习 器 必须 具有 泛 化 (generalize) 能 力 : 超越 特定 的 训练 样本 去 分 类 
还 未 出 现 的 样本 。 
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度量 成 功 与 否 的 一 种 标准 方法 是 将 样本 分 为 训练 集 和 测试 集 ， 利 用 训练 集 建立 表示 ， 
然后 在 测试 集 上 考察 其 预测 准确 率 。 当 然 ， 这 只 是 我 们 所 需要 的 度量 的 一 种 近似 ， 真 正 的 
度量 是 它 在 未 来 任务 上 的 表现 能 力 。 

eB: 对 于 一 个 假设 的 偏好 称 为 偏 置 (bias)。 考 虑 先前 定义 的 Agent N 和 Agent P, 
我 们 说 一 个 假设 优 于 N( 或 P) 的 假设 ,不 是 指 从 训练 集 (在 该 集合 上 N 和 P 均 准确 地 分 类 
了 所 有 的 样本 ) 上 得 到 的 某 些 结论 ， 而 是 指 从 训练 集 之 外 的 数据 上 获得 的 结果 。 如 果 没 有 
WE. Agent 将 无 法 对 未 知 的 样本 做 出 预测 。P 和 NN 采用 的 假设 对 于 未 来 样本 的 预测 是 互 
相 矛 盾 的 ， 如 果 Agent 不 能 从 中 选择 一 个 较 好 的 假设 ， 它 将 不 能 消除 这 种 分 歧 。 总 之 ， 为 
了 使 得 任意 的 归纳 过 程 对 未 来 的 样本 能 够 做 出 预测 ， Agent 需要 一 个 偏 置 。 什 么 是 一 个 好 
的 偏 置 是 一 个 经 验 性 的 问题 ， 它 考察 什么 样 的 偏 置 在 实践 中 工作 得 最 好 。 对 于 了 或 N 的 
偏 置 ， 我 们 没有 认定 它们 在 实践 中 工作 良好 。 

搜索 学 习 : 给 定 表示 形式 和 偏 置 ， 学 习 可 以 简化 为 一 个 搜索 问题 。 在 可 能 的 表示 空间 
中 进行 搜索 ， 以 便 在 给 定 偏 置 的 条 件 下 找 出 与 数据 最 匹配 的 表示 形式 。 不 幸 的 是 ， 除 了 最 
简单 的 样 例 ， 搜 索 空 间 往往 很 大 ， 以 致 进行 完全 搜索 是 不 可 行 的 。 在 机 器 学 习 中 ， 几 乎 所 
有 的 搜索 技术 都 可 以 被 看 成 是 在 表示 空间 上 的 局 部 搜索 。 学 习 算 法 可 由 搜索 空间 、 评 估 函 
数 和 搜索 方法 来 定义 。 

MA. 大 多 数 现实 世界 中 的 情况 是 数据 并 非 完 全 正确 。 数 据 中 存在 噪声 (一 些 特征 被 
赋予 错误 的 值 ) 、 不 恰当 的 特征 (该 特征 于 预测 分 类 无 益 ) 以 及 带 有 特征 缺失 的 样本 。 学 习 
算法 的 一 个 重要 特征 是 其 处 理 噪声 数据 的 能 力 ， 不 管 这 种 噪声 是 以 何 种 形式 存在 。 

插值 和 外 推 : 对 于 那些 天 然 就 有 “在 …… 之 间 ” 插 值 的 情形 ， 例 如 对 时 间或 空间 进行 预 
测 ， 插 值 在 拥有 数据 的 案例 之 间 做 预测 。 外 推 措 的 是 对 还 未 出 现 的 样本 做 预测 。 一 般 的 ， 
外 推 比 插值 更 不 精确 。 例 如 ， 在 古代 天 文学 ， 托 勒 密 体系 (天 动 说 ) 和 日 心 体系 (地 动 说 ) 均 
用 周转 圆 ( 圆 里 套 着 圆 ) 对 太阳 系 的 运动 进行 了 细致 的 建 模 。 模 型 的 参数 可 以 调整 到 与 数据 
非常 匹配 ， 从 而 使 得 该 模型 在 插值 方面 做 得 非常 好 ， 但 在 外 推 方面 却 是 非常 糟糕 。 再 举 一 
个 例子 ， 在 给 定 某 一 天 之 前 及 之 后 的 价格 数据 的 情况 下 ， 预 测 该 天 的 股票 价格 通常 是 容易 
的 ， 但 要 预测 明天 的 股票 价格 却 非常 困难 ， 而 这 种 预测 未 来 的 能 力 又 是 极其 有 价值 的 。 
Agent 必 须 对 这 种 情形 小 心 翼 愤 ， 测 试 案例 大 多 涉及 数据 点 之 间 的 插值 ， 但 学 得 的 模型 却 
用 于 外 推 。 


为 什么 我 们 信任 一 个 归纳 的 结论 


从 数据 中 学 习 时 ，Agent 对 超越 给 定 的 数据 做 预测 。 观 察 到 太阳 每 天 升 起 ， 人 们 就 
预测 太阳 了 明天 也 将 升 起 ; 观察 到 没有 支撑 的 物体 反复 降落 ,小孩 就 推断 它 将 总 是 降落 
(直到 他 偶然 看 到 充满 氮气 的 气球 ); 观察 到 许多 天 鹅 是 黑色 的 ， 某 些 人 就 可 能 断定 所 有 
的 天 鹅 都 是 黑色 的 。 考 虑 如 图 7-1 所 示 的 数据 ， 学 习 算 法 确定 一 种 表示 形式 以 便 预 测 用 
户 的 行为 在 该 用 户 所 属 的 样 例 中 ，Author、Thread、Length 和 WhereRead 字段 ( 特 
征 ) 的 值 分 别 是 unknown, new, long 和 tork， 但 没有 告知 用 户 将 如 何 行动 。 这 个 例子 
带 来 的 问题 是 ，Agent 为 何 要 相信 这 种 并 非 是 逻辑 推导 (基于 Agent 的 知识 ) 所 得 到 的 
结论 ? 

当 Agent 采用 了 一 个 偏 置 或 选择 了 一 个 假设 ， 它 就 置身 于 训练 数据 之 外 了 一 一 即使 要 
预测 的 新 样 例 与 数据 中 的 旧 样 例 完 全 一 致 。 为 什么 Agent 相信 这 个 假设 而 非 其 他 假设 ? 
Agent 根据 什么 标准 选择 假设 ? 
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最 常用 的 技术 是 依据 奥 卡 姆 剃刀 原理 (Ockham's razor) 选 择 适 合 数 据 的 最 简单 的 假设 。 
威廉 。 奥 卡 姆 是 一 位 英国 哲学 家 ， 他 出 生 于 大 约 1285 年 ，1349 AT- OÈ: 
“Occam” 是 英国 小 镇 "DOckham” 的 法 语 拼 写 ， 这 种 写法 经 常 被 采用 。) 奥 卡 姆 在 解释 经 济 现 
象 时 主张 "如 无 必要 ， 勿 增 实 体 叶 LEdwards，1967，Vol.8，P. 307], 

为 什么 我 们 信任 最 简单 的 假设 ， 特 别 是 为 什么 要 根据 表达 假设 的 语言 来 判定 哪个 假设 
是 最 简单 的 ? 

首先 ， 可 以 合理 地 假定 现实 世界 是 存在 结构 的 ，Agent 需要 发 现 这 种 结构 以 便 做 出 合 

的 行动 。 搜 索 是 发 现 现实 世界 结构 的 一 种 合理 方法 。 高 效 的 搜索 策略 是 从 简单 的 假设 开 
始 ， 然 后 才 是 复杂 的 假设 。 如 果 没 有 发 现 结构 ， 那 将 一 事 无 成 ! 现实 世界 中 已 经 发 现 了 许 
多 结构 的 事实 (例如 物理 学 家 发 现 的 所 有 结构 ) 让 我 们 相信 搜索 是 有 效 的 。 

简洁 性 依赖 于 语言 不 会 令 人 生 疑 。 语 言 在 不 断 地 发 展 进化 ， 它 使 得 人 们 能 够 表达 现实 
世界 的 结构 。 因 此 ， 我 们 期 望 日 常 语言 中 的 简洁 性 是 复杂 性 的 一 个 很 好 的 度量 。 

信任 归纳 假设 的 最 重要 原因 是 信任 它们 会 带 来 好 处 。 它 们 帮助 Agent 与 世界 进行 交互 
和 避免 被 杀害 ; 一 个 Agent 如 果 学 习 基 础 不 牢靠 ， 它 将 不 能 长 期 存活 。“ 最 简单 假设 "这 种 
启发 式 规 则 是 有 用 的 ， 因 为 它 在 实际 中 奏效 可 行 。 


7.2 有 监督 学 习 
有 监督 学 习 的 抽象 定义 如 下 。 假 定 学 习 器 获得 了 下 述 数据 ; 


。 一 个 输入 特征 (input feature) 的 集合 ，Xi ，…，X,; 

。 一 个 目标 特征 (target feature HAA, Yio > Yes 

。 一 个 训练 样本 (training ematople) Hate, 对 于 每 一 个 样本 ， 其 答 大 特征 的 值 和 目 
标 特 征 的 值 均 已 给 定 ; 


。 一 个 测试 样本 (test example) 的 集合 ， 其 中 只 给 定 了 输入 特征 的 值 。 

学 习 的 目标 是 预测 测试 样本 和 尚未 出 现 的 样本 中 目标 特征 的 值 。 典 型 的 ， 学 习 是 表示 
形式 的 构建 ， 该 表示 形式 可 依据 新 样本 输入 特征 的 描述 进行 预测 。 

令 e、 下 和 wali(e，F) 分 别 表示 一 个 样本 、 一 个 特征 和 样本 在 特征 上 的 值 。 

【 例 7-1】 图 7-1 所 示 的 是 一 个 典型 分 类 任务 的 训练 与 测试 样本 。 目 标 是 预测 某 个 人 
是 否 阅 读 发 布 在 电子 公告 牌 上 的 文章 (已 经 给 定 该 文章 的 特性 )。 输 入 特征 分 别 是 Author. 
Thread, Length #1 WhereRead; 目标 特征 只 有 一 个 ， 即 UserAction。 总 共有 18 个 训练 样 
本 ， 它 们 的 特征 值 均 已 知 。 

在 该 数据 集中 ，wal (en， Author) = unknown, vallen, Thread) = followUp, val 
Cens UserAction) =skips, 

学 习 目 标 是 预测 给 定 了 输入 特征 值 的 新 样本 的 UserAction 值 。 < 

最 常用 的 学 习 方 法 是 考察 包括 所 有 可 能 表示 的 假设 空间 (hypothesis space)。 每 一 个 可 
能 的 表示 均 为 一 个 假设 (hypothesis) 。 假 设 空间 通常 是 有 限 大 ， 或 是 可 列 无 限 大 的 空间 。 
可 应 用 下 述 方法 进行 预测 : 

。 根据 某 个 较 好 的 度量 ， 在 假设 空间 中 找到 最 好 的 假设 ; 

。 所 有 假设 均 与 训练 样本 一 致 ; 

。 在 训练 样本 提供 证 据 的 前 提 下 ， 计算 假设 的 后 验 概率 。 

一 种 例外 的 情形 是 ， 基 于 案例 的 推理 直接 使 用 样本 。 
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Thread WhereRead UserAction 
known new long 
unknown new short 
unknown follow Up long 
known follow Up long 
known new short 
known follow Up long 
unknown follow Up short 
unknown new short 
known follow Up long 
known new long 
unknown follow Up short 
known new long 
known follow Up short 
known new short 
known new short 
known follow Up short 
known new short 
unknown new short 
ei unknown new long work ? 
ezo unknown follow Up long home ? 


图 7-1 用 户 阅读 偏好 的 例子 。 这 是 一 些 通 过 观察 用 户 决定 是 否 阅 读 发 布 到 有 线 状 图 案 装 饰 的 讨论 板 上 的 
文章 而 收集 到 的 训练 和 测试 样本 。 用 户 的 决定 依赖 于 文章 的 一 些 特 性 ， 如 作者 是 否 知名 、 是 否 开 
始 一 个 新 主题 或 只 是 跟随 式 的 讨论 、 文 章 的 长 度 和 在 家 阅读 还 是 在 单位 阅读 。e; ，…，es 为 训练 样 
本 。 目 标 是 预测 样本 es 、ezo 以 及 目前 还 未 出 现 的 样本 上 用 户 的 行为 (特征 UserAction 的 值 ) 


7.2.1 评估 预测 


如 果 e 为 一 个 样本 ， 目 标 特征 Y 的 点 估计 (point estimate) 指 的 是 Y 在 样本 e 里 的 预测 
值 ， 记 为 pvali(e，Y)。e 在 Y 上 的 误差 (error) 度 量 pvali(e，Y) 和 val(e,，Y) 的 接近 程度 ， 
其 中 valle, YERE Y Ee 里 的 真实 值 。 
对 于 回归 问题 ， 目 标 特征 Y 取 实 数 ( 连 续 ) 值 ， 因 而 pua!(e，Y) 和 zaz(e，Y) 均 为 实 
数 ， 它 们 可 以 进行 算术 意义 上 的 比较 运算 。 
对 于 分 类 问题 ， 目 标 特 征 Y 取 离 散 值 ， 这 可 分 为 多 种 情况 加 以 讨论 : 
。 了 是 二 元 变量 ( 即 取 值 为 0 或 1) ， 预 测 值 是 某 个 实数 。 此 时 预测 值 和 实际 值 可 以 进 
行 数 值 比较 。 
。 了 是 多 元 变量 ( 即 取 值 多 于 二 值 )， 且 有 时 所 取 的 值 具 有 全 序 关系 、 大 小 可 按 比 例 
进行 缩放 (使 得 Y 的 每 一 个 取 值 都 可 以 用 一 个 实数 进行 关联 )。 在 这 种 情况 下 ， 预 
测 值 和 真实 值 可 以 基于 比例 关系 做 比较 。 然 而 ， 这 种 方法 即使 是 在 取 值 具有 全 序 
关系 的 条 件 下 也 经 常 是 不 合适 的 。 例 如 ， 假 定 取 值 范围 是 short, medium 和 long , 
HWA short V long 和 预测 值 为 medium 是 显然 不 同 的 。 
。 了 是 多 元 变量 ， 取 值 范 围 为 {v1 ，…， 允 }，&>>2， 此 时 可 以 为 每 个 v 单独 做 预测 。 
这 可 以 通过 引入 一 个 关联 于 每 个 v 的 二 元 指示 变量 (indicator variable) 来 实现 。 对 
于 每 一 个 样本 ， 当 Y 取 值 v; 时 指示 变量 取 值 1， 和 否则 取 值 0。 预 测 时 给 出 《个 实 
数 一 一 每 个 实数 对 应 一 个 vw。 
【 例 7-2】 假定 一 个 交易 Agent 想 学 习 一 个 人 对 于 假期 长 度 (1、2、3、4、5 或 6 天 ) 
的 偏好 。 
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一 种 表示 形式 是 定义 一 个 取 值 范围 为 假期 天 数 的 实 值 变量 Y。 

另 一 种 表示 形式 是 定义 6 个 实 值 变量 ， Yis -s Xis 其 中 Y; 代表 想 休假 i Rs 对 于 
每 一 个 样本 ， 当 假期 天 数 是 i 时 YY; 二 1， 否 则 Y,=o. 

下 面 是 对 包含 5 个 数据 点 的 样本 集 采 用 两 种 不 同 表示 方法 的 例子 : 


示 例 Y 示 fil Y, Y, Ys Y, Y, Y, 
el 1 e 1 0 0 0 0 0 
z 6 ez 0 0 0 0 0 1 
£ 6 e3 0 0 0 0 0 1 
es 2 es 0 1 0 0 0 0 
gs; 1 es 1 0 0 0 0 0 


在 第 一 种 表示 方法 中 ， 对 一 个 新 样本 的 预测 值 可 以 是 任意 实数 ,例如 Y=3.2。 

在 第 二 种 表示 方法 中 ， 学 习 器 将 预测 每 个 Y; 的 值 。 一 组 可 能 的 预测 值 是 Y, =0. 5、 
Y2 二 0. 3、Y;3 二 0.1、Y, 二 0. 1、Ys 二 0.1、Y6 二 0.5， 它 表明 这 个 人 可 能 愿意 休假 1 天 或 6 
天 ， 而 不 是 3、4 或 5 天 。 l | < 

在 下 面 的 定义 中 ，E 代表 所 有 样本 的 集合 ，T 代 表 目 标 特征 的 集合 。 

关于 预测 的 一 些 度量 可 定义 如 下 : 

。 上 的 绝对 误差 (absolute error) 指 的 是 在 每 个 样本 上 做 预测 所 得 的 绝对 误差 之 

和 ， 即 


SD DD | ual(e,Y) — poal(es¥) | 


绝对 误差 总 是 非 负 的 ， 仅 当 预 测 值 与 观察 的 实际 值 完 全 一 致 时 才 为 0。 
。 万 上 的 平方 和 误差 (sum-of-squares error) 定 义 为 
SDS) cul (e,¥) 一 poal (esY))’ 290 


与 小 误差 相 比 ， 该 度量 更 强调 大 误差 的 影响 :大 误差 是 小 误差 的 两 售 ， 导 致 的 恶 
劣 影响 是 4 倍 大 ; 大 误差 是 小 误差 的 10 倍 ， 导 致 的 恶劣 影响 是 100 RK. 

。 巨 上 的 最 坏 情况 误差 (worst-case error) 指 的 是 样本 中 的 最 大 绝对 误差 : 
max max | val Ce,Y) — pual(e,Y) | 


此 时 ， 学 习 器 通过 其 最 差 的 情形 来 评估 其 性 能 。 
【 例 7-3] 假定 一 个 实 值 目标 特征 Y 由 一 个 实 值 输入 特征 和 决定， 包含 如 下 数据 点 
CX, Yj: 
CO. 7.1. 7),€1.1,2.4),(1. 3,2. 5),(1. 941. 7) (2. 6,2. 1),(3. 1,2. 39,03. 9,7) 
7-2 显示 了 训练 数据 (实心 圆 ) 和 三 条 直线 Pis Ps,s P (它们 根据 X 值 预 测 值 )。 





图 7-2 ”对 一 个 简单 样 例 集 的 线性 预测 。 实 心 圆 代 表 训 练 样本 。Pi Po MPs 分 别 是 最 小 化 样本 绝 
对 误差 、 平 方 和 误差 与 最 坏 情 况 误 差 的 线性 预测 (函数 )。 参 见 例 7-3 


291 





292 


192 第 三 部 分 学 习 与 规划 


在 XX 二 1.1 处 ，P, MP. 给 出 了 相似 的 预测 值 ， 即 P 1.805, P, 是 1.709; 而 训练 
数据 包含 的 数据 点 是 (1,.1，2.4)。 同 时 ，P: 给 出 的 预测 值 为 0.7。 在 [1，3j 之 间 进 行 插 
fl» Pi, P: 和 Ps 给 出 的 预测 值 的 差别 不 超过 1. 5。 而 当 进 行 外 推 的 时 候 ， 预 测 值 的 偏离 
就 越 来 越 明 显 了 ，P, 和 P; 在 X=10 处 的 预测 值 是 非常 不 同 的 。 

最 小 化 不 同 误差 度量 的 直线 的 差别 主要 在 于 它们 处 理 异 常 样本 的 不 同 。 数 据点 (3.9， 
7) 为 异常 样本 ， 而 其 他 数据 点 近似 地 成 一 直线 。 

基于 最 坏 情 况 误差 的 预测 直线 Ps 仅 依赖 于 3 个 数据 点 ， 即 (1.1，2.4)、(3.1，2. 3) 
和 (3.9，7)。 对 于 P; 而 言 ， 这 些 数据 点 具有 相同 的 最 坏 情 况 误差 值 。 其 他 数据 点 可 以 处 
于 不 同 的 位 置 ， 只 要 它们 偏离 Ps 的 距离 比 这 3 个 数据 点 小 。 

相 比 之 下 ， 最 小 化 绝对 误差 的 预测 直线 已 并 不 随 训练 样本 的 真实 Y 值 的 变化 而 变化 : 
直线 之 上 的 点 依然 在 直线 之 上 ， 直 线 之 下 的 点 依然 在 直线 之 下 。 例 如 ， 即 使 最 后 一 个 数据 
点 是 (3.9，107) 而 不 是 (3.9，7) ， 直 线 P, 也 保持 不 变 。 

最 小 化 平方 和 误差 的 预测 直线 P, 对 所 有 的 数据 点 都 很 敏感 : 如 果 改 变 任 一 数据 点 的 
Y fA. P: 也 将 随 之 改变 。 < 

对 于 一 种 特殊 的 情形 ， 即 Y 取 值 {0，1)}、 预 测 值 是 [0，1j 之 间 的 某 个 实数 ， 则 存在 一 
些 用 于 布尔 域 的 预测 度量 标准 ， 其 中 true 和 false 分 别 被 看 成 1 和 0。 

。 数据 的 似 然 性 (likelihood of the data) 指 的 是 当 预 测 值 被 解释 为 概率 的 时 候 数 据 取 

值 的 概率 : 
TI TpvalCe, YY C1 — pval le, yyy we 


«EE YET 


valle, YYAIA—valle, YI RMASA—-PH 1, H—-TPHAO, Alt, 4 valle, Y)=1 
时 该 乘积 使 用 pval(e，Y) ， 否 则 使 用 (1 一 pvali(e，Y))。 具 有 较 大 似 然 性 的 预测 被 
认为 是 较 好 的 ， 而 具有 最 大 似 然 性 的 模型 则 称 为 最 大 似 然 模型 (maximum likeli- 


hood model) 。 
。 基于 将 pualle, Y MAR RNS SA. BH A Centropy) 78 MH Al T 4a BE 
的 二 进 制 位 数 : 
一 2 > [eal(e,Y log pvalle,Y) + (1 — wile, ¥) log — pval(e,Y))] 
BE KF BS TU AY de Be) GS I 。 


h TEMIR EBS YY PT A SB) A Hg A SR EES BY 
。 在 Y 取 值 0 或 1 的 基础 上 ， 限 定 预测 值 也 取 值 0 或 1。 假 正 错误 (false-positive error) 指 

的 是 错误 的 正 预 测 ( 即 预测 值 是 1， 而 真实 值 却 是 0)。 假 负 错 误 (false-negative error) 指 
的 是 错误 的 负 预 测 ( 即 预测 值 是 0， 而 真实 值 却 是 1) 。 不 同 的 错误 通常 与 不 同 的 代价 相 
关联 ， 例 如 如 果 存 在 关于 产品 是 否 安 全 的 数据 ， 那 么 在 产品 不 安全 的 情形 下 断言 产品 
是 安全 的 代价 与 在 产品 安全 的 情形 下 断言 产品 是 不 安全 的 代价 可 能 是 不 同 的 。 

我 们 可 以 根据 Agent 对 于 学 习 之 外 的 样本 的 预测 的 好 坏 来 判定 Agent 是 否 拥 
有 一 个 好 的 学 习 算 法 。Agent 进行 预测 存在 两 种 极端 情况 : 当 它 确信 预测 是 正 的 
时 候 ， 则 仅 给 出 正 的 预测 ; 除非 它 确信 预测 可 能 是 负 的 ， 否 则 可 以 给 出 正 的 预测 。 
通常 的 预测 介 于 两 者 之 间 。 

考察 独立 于 决策 的 预测 的 一 种 方法 是 考虑 下 述 基 于 预测 值 和 真实 值 的 4 种 指标 : 


实际 为 正 实际 为 负 
”预测 为 正 假 正 (fp) ， 
预测 为 负 (BL fn) Afi (in) 
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假定 ip 是 预测 为 正 且 实际 也 为 正 的 样本 个 数 ，fp 是 预测 为 正 而 实际 却 为 负 的 样 
APR, fn 是 预测 为 负 而 实际 却 为 正 的 样本 个 数 ，tn 是 预测 为 负 且 实际 也 为 负 的 


样本 个 数 。 精 确 度 Cprecision) 定 义 为 志 华 元 ， 即 预测 为 正 且 实 际 也 为 正 的 样本 个 


数 占 预测 为 正 的 样本 的 比例 。 召 回 率 (recall) 或 真正 率 (true-positive rate) 定 义 为 
万 半 扬 ， 即 预测 为 正 且 实际 也 为 正 的 样本 个 数 占 实际 为 正 的 样本 的 比例 。 假 正 率 


定义 为 二， 即 预 测 为 正 而 实际 为 负 的 样本 个 数 占 实际 为 负 的 样本 的 比例 。 


Agent 应 该 尽力 最 大 化 精确 度 和 召回 率 、 最 小 化 假 正 率 ， 然而， 这 些 目标 是 不 
相 容 的 。Agent 可 以 仅 通过 预测 为 正 ( 如 果 它 确信 的 话 ) 来 最 大 化 精确 度 和 最 小 化 假 正 
率 ， 但 是 这 样 做 降低 了 召回 率 。 反 之 ， 最 大 化 召回 率 的 预测 也 是 有 风险 的 ， 即 降低 
了 精确 度 和 增 大 了 假 正 率 。Agent 通常 具有 一 些 参 数 ， 它 们 通过 阔 值 的 变化 控制 何 
时 进行 为 正 的 预测 。 精 确 度 - 召 回 率 曲线 (precision-recall curve) 绘 制 了 当 这 些 参数 变 
化 时 的 精确 度 与 召回 率 的 相对 变化 。ROC(receiver operating charateristic， 接 收 者 操 
作 特 性 ) 曲 线 绘制 了 当 这 些 参 数 变化 时 的 假 正 率 与 假 负 率 的 相对 变化 。 上 述 的 每 一 种 
方法 都 可 用 于 学 习 算 法 的 比较 ， 这 些 算法 并 不 依赖 于 Agent 的 真正 意志 。 

。 可 以 将 预测 看 成 是 Agent 的 一 个 行动 。Agent 应 该 选择 最 大 化 偏好 函数 的 行动 ， 

该 偏好 函数 需要 在 不 同行 动 所 关联 的 代价 之 间 进 行 折 中 。 行 动 可 能 比 “ 真 ”或 “ 假 ” 
这 种 情况 更 为 复杂 ， 例 如 “谨慎 行事 ”或 "绝对 真实 "。 第 9 章 将 讨论 Agent 如 何 处 
理 不 确定 性 。 

【 例 7-4) 考虑 例 7-2 所 示 的 数据 ， 假 定 没 有 输入 特征 ， 则 所 有 样本 的 预测 值 是 一 样 的 。 

在 第 一 种 表示 方法 中 ， 在 训练 数据 上 最 小 化 绝对 误差 的 预测 值 是 2， 相 应 的 绝对 误差 
是 10。 而 最 小 化 平方 和 误差 与 最 坏 情况 误差 的 预测 值 分 别 是 3.2 和 3.5。 

在 第 二 种 表示 方法 中 ， 在 训练 数据 上 最 小 化 绝对 误差 的 预测 值 是 Y; 二 0。 最 小 化 平方 
ARAKEA Yı =0.4, Y =0.1, Y =0, Y, =0, Y; =0, Y, 一 0.4， 这 也 是 最 小 化 
TAD BK ACU ARRE BS RE BY AR. ie) BR A OL R EH HM Ae Y, = Y = 
Y;=0.5, Y; =Y, =Y; =0, < 

因此 ， 采 用 哪 种 预测 依赖 于 如 何 评估 预测 。 


7.2.2 无 输入 特征 的 点 估计 


学 习 的 最 简单 情形 是 数据 没有 输入 特征 且 只 有 一 个 目标 特征 。 对 于 许多 学 习 算 法 来 
讲 ， 这 是 基准 情形 ， 相 当 于 忽略 了 所 有 的 输入 特征 。 在 这 种 情形 下 ， 学 习 算法 对 于 所 有 的 
样本 均 给 出 单一 目标 特征 值 的 预测 。 最 小 化 误差 的 预测 依赖 于 采用 哪 种 误差 。 

假定 玉 是 样本 集合 ,，Y 是 一 个 数值 特征 。Agent 能 做 的 事 就 是 对 所 有 样本 给 出 一 个 单一 
的 点 估计 值 。 注 意 ， 虽 然 Agent 进行 随机 预测 是 可 能 的 ， 但 这 样 做 并 非 更 好 ， 参 见习 题 7. 2。 

E 上 的 预测 值 为 v 的 平方 和 误差 是 

D cal(e,Y) — v)? . 


E 上 的 预测 值 为 v 的 绝对 误差 是 
os |val(e,Y) — v| 
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上 的 预测 值 为 v 的 最 坏 情 况 误 差 是 
max | val (e.Y) —v| 
命题 7.1 假定 V 是 一 个 多 值 集 合 ， 集 合 的 元 素 为 val(e, Y), e€E. 
(a)EF 上 的 最 小 化 平方 和 误差 的 预测 是 V 的 平均 值 。 
(DE 上 的 最 小 化 绝对 误差 的 预测 是 V 的 中 位 值 。 特 别 的 ， 对 于 最 小 化 误差 的 数字 vw， 
V 中 小 于 vv 的 数值 个 数 与 大 于 wv 的 数值 个 数 相等 。 
(OE 上 的 最 小 化 最 坏 情况 误差 的 预测 是 (maxr 十 min)/2， 其 中 max Fe min 分 别 是 V 
的 最 大 值 和 最 小 值 。 
证 明 : 详细 的 证 明 留 作 练习 ， 这 里 只 给 出 基本 的 证 明 思 路 。 
(a) 将 平方 和 误差 公式 对 于 v 求 导数 并 设 为 0。 这 属于 初等 微 积分 的 内 容 。 为 了 确保 找 
到 最 小 值 ， 不 仅 需要 检查 导数 为 0 的 点 ， 也 需要 检查 区 间 的 端点 。 
(b) 绝 对 误差 是 立 的 分 段 线性 函数 。 不 属于 V 的 值 的 斜率 依赖 于 大 于 该 值 的 元 素 个 数 
与 小 于 该 值 的 元 素 个 数 的 差 : 如 果 大 于 的 元 素 个 数 与 小 于 wv 的 元 素 个 数 相 同 ， 则 v 是 使 
得 误差 最 小 值 化 的 一 个 预测 。 
(Cc) 这 个 预测 的 误差 是 (maz 一 miz)/2， 增 加 或 减少 预测 值 都 会 加 大 误差 。 a 
当 目 标 特 征 的 取 值 范围 为 {0，1} 时 ， 训 练 样本 可 划分 为 : 值 为 0 的 样本 个 数 m 和 值 
为 1 的 样本 个 数 n, 。 每 一 个 新 样本 的 预测 值 都 是 一 样 的 ， 记 为 pe : 
最 优 预 测 p 依赖 于 优化 的 标准 。 训 练 数 据 上 优化 标准 的 值 可 以 被 解析 地 计算 出 来 ， 结 
果 如 图 7-3 所 示 。 
预测 的 度量 训练 数据 上 预测 值 为 p 的 度 值 训练 数据 上 的 最 优 预 测 值 
绝对 误差 no ptn(1—p) median(no, n) 
平方 和 误差 nmp? +n, Qp) 


ni 
no +n 


1 如 果 my =0 
0.5 其 他 
nı 

no tn 


最 坏 情况 误差 1 一 户 如 果 mo 一 0 
max(p. 1— p) He fth 


{PR HE pp (1—p)" 


{i mE n =0 fi 如 果 n =0 


Ei ni logp— np log(1— p) <= 





图 7-3 当 训 练 数 据 由 no 个 目标 特征 值 为 0 的 样本 和 xn 个 目标 特征 值 为 1 的 样本 构成 (没有 输入 特征 ) 。 
X n>m A, median(m. m) Rf 0; 当 m<m 时 ，medianr(z ，m) 取 值 1; 4m=n, 时 ， 
median(ny, m) BT LARRZELO, 1AM He 


注意 ， 优 化 绝对 误差 意味 着 预测 取 中 位 值 ， 由 于 误差 是 p 的 线性 函数 ， 所 以 这 并 不 令 
人 惊讶 。 
基于 其 他 优化 标准 的 预测 是 计算 经 验 频 率 (empirical frequency): 训练 数据 中 取 值 为 1 


的 样本 个 数 ， 即 元 平王 。 这 可 以 看 成 是 一 种 概率 (probability) 的 预测 。 经 验 频率 也 常 称 为 


ny 
最 大 似 然 估计 (maximum-likelihood estimate) 。 
上 述 分 析 没 有 指定 测试 数据 上 的 最 优 预 测 值 。 我 们 不 能 指望 训练 数据 上 的 经 验 频率 就 
是 测试 数据 上 的 最 优 预 测 值 (该 预测 值 最 大 化 似 然 性 或 最 小 化 焙 )。 如 果 mo 二 0 或 nn 二 0， 
则 所 有 训练 数据 都 归于 同一 个 类 别 。 然 而 ， 只 要 有 一 个 测试 样本 不 是 这 样 分 类 的 ， 则 似 然 





性 将 为 0( 最 小 的 可 能 值 ) ， 暗 将 为 无 限 大 。 详 见习 题 7. 1 。 
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7.2.3 概率 学 习 


对 于 许多 用 于 预测 的 度量 来 说 ， 训 练 数据 上 的 最 优 预测 是 经 验 频 率 。 因 此 ， 进 行 点 估计 
可 以 解释 为 学 习 一 个 概率 。 然 而 ， 经 验 频率 通常 并 是 新 样 例 概 率 的 一 个 好 的 估计 ， 这 是 因为 
Agent 没有 观察 到 变量 的 值 并 不 意味 着 该 值 应 该 赋予 概率 0。 概 率 为 0 说 明 该 值 是 不 可 能 的 。 

通常 我 们 获得 数据 并 非 没 有 任何 先 验 知识 。 大量 的 关于 诸如 符号 的 意义 、 类 似 样 例 的 
经 验 等 领域 的 先 验 知识 可 用 来 提高 预测 的 效果 。 

考虑 0 概率 问题 和 先 验 知 识 的 一 般 方法 是 利用 伪 计 数 (pseudocount) 或 先 验 计数 (prior 
count) 在 训练 数据 上 加 上 某 个 值 。 

假定 有 一 个 二 元 特征 了 了，Agent 观察 到 有 n 个 Y==0 的 样 例 和 ni TF Y=1 的 样 例 。 
Agent 可 以 对 Y 一 0 A Y=1 的 情况 分 别 使 用 伪 计 数 co 三 0 和 c: 之 0， 此 时 概率 可 估计 为 

P(Y7Y 一 1) 一 (na 十 cl)/Cao 十 co 十 mn 十 ci) 
这 个 概率 同时 考虑 了 数据 和 先 验 知识 。 该 公式 在 具有 参数 先 验 知识 的 条 件 下 得 到 了 验证 
( 见 7.8 节 )。 选 择 伪 计数 是 设计 学 习 器 的 一 个 部 分 。 

更 一 般 的 ,假定 Y 的 取 值 范围 是 {y, ，…，y:}。Agent 对 每 个 y; 设 定 伪 计 数 c;， 它 们 
在 Agent 观察 到 数据 之 前 选 定 。 如 果 Agent 此 时 观察 到 一 些 训 练 样本 ， 且 n; 是 了 二 y 的 
样本 个 数 ， 则 


PY =») = —2=® 


> ee tn 

为 了 确定 伪 计 数 ， 考 虑 这 样 一 个 问题 “已 经 观察 到 一 个 了 ==y; 的 样 例 与 没有 观察 到 
这 样 的 样 例 相 比 ，Agent 信任 y; 的 程度 提升 了 多 少 ?”。 如 果 没 有 观察 到 Y= 二 yi 的 样 例 ， 
Agent 是 不 可 能 信任 y: 的 ， 因 此 c 应 该 为 0; 否则 ， 上 述 问题 的 答案 应 该 是 比例 值 (1 十 
G): ci。 由 此 可 以 看 出 : 车 伪 计 数 取 1， 观察 过 一 次 的 值 出 现 的 可 能 性 是 从 没 观 察 过 的 值 
的 两 倍 ; 若 伪 计数 取 10， 与 从 没 观察 过 的 值 相 比 ， 观 察 过 一 次 的 值 出 现 的 可 能 性 增加 了 
10%; 车 伪 计数 取 0. 1， 观 察 过 一 次 的 值 出 现 的 可 能 性 是 从 没 观 察 过 的 值 的 11 倍 。 如 果 没 
有 理由 更 偏好 选择 Y 中 的 某 个 值 ， 所 有 的 伪 计 数 c; 应 取 同 样 的 值 。 

如 果 没 有 先 验 知识 ，LaplaceL1812] 建 议 c; 取 1， 其 合理 性 的 说 明 参 见 7.8 节 。 然 而 ， 
我 们 也 将 会 碰 到 这 种 取 法 并 不 恰当 的 实例 。 

相同 的 思想 可 用 于 学 习 条 件 概率 分 布 (conditional probability distribution ) 。 为 了 估计 
变量 了 条 件 依赖 于 变量 X HRERS PCY |X). Agent 可 以 为 每 一 对 了 和 X 的 值 维 
护 一 个 计数 。 假 定 一 个 非 负 的 值 cy HORA YS y AX=2; 的 伪 计数 ， 且 观察 到 的 满足 
Y=y; AX=z; 的 样 例 个 数 是 my ， 则 

P(¥=y|X=z)= eee 
但 当 分 母 很 小 的 时 候 ， 上 述 公 式 就 不 能 很 好 地 解决 问题 。 当 X 中 的 某 些 值 非常 稀少 的 时 
候 就 会 出 现 分 母 很 小 的 情形 ， 例 如 ， 当 XX 具有 一 定 的 结构 (例如 由 其 他 变量 构成 )， 此 时 
在 训练 数据 中 经 常 出 现 X 的 某 些 赋值 非常 稀少 ， 甚 至 从 不 出 现 的 情形 。 在 这 种 情况 下 ， 
学 习 器 必须 采用 将 在 本 章 后 续 介 绍 的 其 他 方法 。 

从 专家 那里 获得 概率 

伪 计 数 的 使 用 为 我 们 提供 了 一 种 结合 专家 观点 (expert opinion) 和 数据 的 方法 。Agent 
通常 没有 质量 很 好 的 数据 ， 但 可 能 有 咨询 多 位 专家 的 条 件 ， 这 些 专家 拥有 不 同 层次 的 专业 
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知识 并 可 给 出 不 同 的 概率 。 

从 专家 那里 获得 概率 面临 一 系列 的 问题 : 

。 专家 不 床 意 提供 一 个 准确 的 概率 值 ( 该 值 不 能 被 进一步 精 化) 。 

。 概率 估计 的 不 确定 性 的 表示 。 

。 组 合 不 同 专家 给 定 的 概率 值 。 

。 组 合 专家 观点 与 实际 数据 。 

与 期 望 专家 直接 给 出 概率 不 同 ， 专 家 可 以 提供 某 种 计数 值 。 不 是 给 定 一 个 诸如 0. 667 
那样 的 实数 作为 A 的 概率 ， 专 家 可 以 给 出 一 对 诸如 (z， 思 那样 的 数值 ， 它 可 以 解释 为 专 
家 从 m 次 实验 中 观察 到 n 次 A 的 出 现 。 本 质 上 ， 专 家 不 仅 给 出 了 一 个 概率 ， 而 且 给 定 了 
数据 集 ( 数 据 集 是 专家 观点 形成 的 基础 ) 大 小 的 一 个 估计 。 

通过 为 系统 增加 伪 计 数组 件 ， 我 们 可 以 将 不 同 专家 的 计数 组 合 在 一 起 。 鉴 于 比率 可 以 反 
映 概 率 的 大 小 ， 其 绝对 值 可 以 用 于 表达 不 同 级 别 的 可 信和 度 : (2，3) 表 达 了 问题 将 由 数据 或 专 
家 估计 所 支配 的 一 种 特别 低 的 可 信和 度 ; ‘20，30) 表 达 了 更 高 的 可 信 度 一 一 少量 样本 难以 改变 
现状 , 但 是 几 十 个 样本 却 可 以 。 以 此 类 推 , 几 百 个 样本 对 先 验 计数 对 (2 000，3 000) 产 生 不 了 
什么 影响 ; 然而 ， 在 面临 成 千 上 万 个 数据 点 的 时 候 ， 这 样 的 计数 对 对 结果 概率 影响 其 微 。 


7.3 有 监督 学 习 的 基本 模型 


学 习 最 终 获 得 的 模型 是 从 输入 特征 到 目标 特征 的 一 种 函数 表示 。 大 多 数 有 监督 学 习 方 
法 接收 输入 特征 、 目 标 特征 和 训练 数据 ， 返 回 能 用 作 未 来 预测 的 模型 。 许 多 学 习 方法 的 区 
别 在 于 采用 什么 方式 表示 函数 。 本 节 我 们 首先 介绍 一 些 基 本 的 学 习 模型 ， 它 们 可 组 合成 更 
复杂 的 模型 。7. 4 节 介绍 由 基本 模型 组 成 的 复杂 学 习 模型 。 


7.3.1 决策 树 学 习 


决策 树 是 对 样 例 进行 分 类 的 一 种 简单 表示 形式 。 在 有 监督 分 类 学 习 中 ， 决 策 树 学 习 是 
最 成 功 的 技术 之 一 。 在 本 节 中 ， 假 定 所 有 的 特征 都 取 有 限 的 离散 值 ， 且 仅 有 一 个 称 为 类 别 
(classification) 的 目标 特征 。 类 别 的 每 一 个 元 素 称 为 类 (class)。 

决策 树 (decision tree) 或 分 类 树 (classification tree) 是 一 棵 树 ， 其 中 ， 每 一 个 内 部 ( 非 叶 
子 ) 节 点 都 用 一 个 输入 特征 进行 标记 ; 从 内 部 节点 引出 的 每 条 弧 分 别 用 该 特征 的 一 个 可 能 
值 进行 标记 ; 树 的 每 个 叶子 节点 用 类 或 类 上 的 概率 分 布 进行 标记 。 

当 对 一 个 样 例 进行 分 类 时 ， 从 树 的 根 节点 开始 从 上 往 下 进行 过 滤 ( 或 匹配 ) : 对 于 树 上 
遇 到 的 每 个 特征 ， 沿 着 该 特征 在 样 例 上 的 值 所 对 应 的 弧 往 下 走 。 当 到 达 一 个 叶子 节点 时 ， 
返回 该 叶子 节点 所 对 应 的 类 。 

【 例 7-5) 图 7-4 显示 了 两 棵 可 能 
的 决策 树 ， 它 们 基于 图 7-1 所 示 的 样 例 。 
两 棵 决策 树 都 可 根据 用 户 的 行为 对 样 全 
进行 分 类 。 当 使 用 左边 的 决策 树 时 ， 首 
先 确 定 特征 Length 的 值 ， 如 果 是 long, 
则 预测 值 为 skips; 否则 检查 特征 
Thread 的 值 ， 如 果 是 new， 则 预测 值 为 
reads; 否则 检查 特征 Author 的 值 ， 仅 图 7-4 两 棵 决策 树 








第 7 章 ”学习 概 述 与 有 监督 学 习 197 


当 为 known 的 时 候 才 预测 为 reads。 这 棵 决策 树 能 够 正确 分 类 如 图 7-1 所 示 的 所 有 样 例 。 
右边 的 决策 树 当 特征 Length 的 值 是 short 的 时 候 进 行 概率 预测 。 在 这 种 情况 下 ， 预 测 


为 reads 和 skips 的 概率 分 别 是 0. 82 和 0. 18. 


< 


一 棵 确定 的 决策 树 ( 其 中 所 有 的 叶子 节点 均 代 表 类 ) 可 以 被 映射 为 一 个 规则 的 集合 ， 
一 个 叶子 节点 对 应 一 条 规则 。 如 果 从 根 节 点 到 某 个 叶子 节点 的 路 径 所 包含 的 条 件 均 为 真 ， 


则 样 例 具 有 该 叶子 节点 所 代表 的 类 。 
【 例 7-6] 
skips <— long 
reads <— short A new 
reads <— short 人 followUp 人 known 
skips < short A followUp A unknown 


图 7-4 左边 所 示 的 决策 树 可 用 下 述 规则 进行 表示 : 


如 果 把 规则 的 否定 看 成 是 失败 的 ， 则 可 以 忽略 结果 是 skips 或 reads 的 规则 ， 其 他 规则 可 


以 从 反面 推理 得 到 。 


< 


使 用 决策 树 作 为 目标 的 表示 形式 存在 如 下 一 些 问题 : 
。 给 定 一 些 训 练 样本 ， 应 该 生成 什么 样 的 决策 树 ? 由 于 决策 树 能 够 表示 输入 特征 的 


任意 函数 ， 可 以 在 偏好 选择 特定 决策 树 的 时 候 考 虑 学 习 的 偏 置 问题 。 一 个 建议 是 


选择 与 数据 匹配 的 最 小 的 决策 树 ， 
这 意味 着 树 的 深度 最 浅 或 树 的 节点 
最 少 。 哪 一 棵 决策 树 是 还 未 观察 到 
的 数据 的 最 好 预测 者 是 一 个 经 验方 
面 的 问题 。 
。 Agent 如 何 处 理 建 立 一 棵 决策 树 的 
问题 ? 一 种 方法 是 在 决策 树 空间 中 
搜索 适合 数据 的 最 小 决策 树 。 不 幸 
的 是 ， 决 策 树 空间 是 非常 巨大 的 
(见习 题 7.7)。 一 种 实用 的 解决 办 
法 是 在 决策 树 空间 中 进行 局 部 搜 
RB, 目标 是 最 小 化 误差 。 这 就 是 下 
述 所 描述 的 算法 的 思想 。 
搜索 一 棵 好 的 决策 树 
可 以 采用 自 顶 向 下 的 方式 增 量 地 构建 
一 棵 决策 树 ， 它 通过 递归 地 选择 一 个 特征 
进行 分 裂 ， 并 依据 该 特征 的 值 划分 训练 样 
本 。 如 图 7-5 所 示 ， 过 程 DecisionTreeL- 
earner 对 二 元 属性 (特征 ) 学 习 一 棵 决策 树 。 
该 过 程 并 未 考虑 关于 何 时 停止 和 选择 什么 
特征 进行 分 裂 的 问题 。 过 程 DecisionTre- 
eClassify 接收 由 DecisionTreeLearner 产 
生 的 决策 树 和 对 新 样本 进行 预测 。 
算法 DecisionTreeLearner 采用 自 顶 向 
下 的 方式 构建 一 棵 决策 树 ， 具 体 过 程 如 下 : 
算法 的 输入 是 输入 特征 的 集合 、 目 标 特征 











1; procedure DecisionTreeLearner(X, Y, E) 


2; Inputs 

3; X: 输入 特征 的 集合 ， X= {Xo s+, X,t 

4; Y: 目标 特征 

5: E: 训练 样本 集 

6:  Ontput 

T: 决策 树 

8: 证 满足 停止 条 件 then 

9: return poinEstimate(Y, E) 

10; else 

11: 选择 特征 X;EX, 值 域 为 {vw ， v} 

12; 4 E, ={e€E:; valle, X) =v} 

13; 4> T, = DecisionTreeLearner (X \ {X;}, Y, E) 
14; 4 E,={e€E; valle, X)=v,} 

15; 4> T, = DecisionTreeLearner (X \ (Xi}, Y, E,) 
16; return X,=v,, Tis T?) 


18; procedure DecisionTreeClassify(e, X, Y, DT) 


19; Inputs 
20; X: 输入 特征 的 集合 ， X=(Xyy *SF 9 X,} 
21; Y: 目标 特征 


22: e: 欲 分 类 的 样本 
23; DT: 决策 树 

24; Output 

25; 样 例 e 的 了 值 预测 


Local 
27; S 是 DT 的 子 树 
28; S;=DT 


29; while S 是 一 个 内 部 节点 且 具 有 形式 (X =v Tis 
T,>do 

30; if valle, X:) =v then 

31; S; =T; 

32: else 

33: S, =T; 


34; return S 


图 7-5 对 于 二 元 特征 的 决策 树 学 习 与 分 类 
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和 样本 集 。 学 习 器 首先 测试 是 否 满足 停止 条 件 ， 如 果 满 足 就 返回 了 的 一 个 点 估计 ， 这 个 点 
估计 要 么 是 工 的 一 个 值 ， 要 人 么 是 了 取 值 的 一 个 概率 分 布 。 如 果 不 满足 停止 条 件 ， 学 习 器 
就 选择 一 个 特征 X, 进行 分 裂 ， 对 于 该 特征 的 每 一 个 值 v， 学 习 器 为 X; 二 v 的 所 有 样本 递 
归 地 构建 一 棵 子 树 。 最 终 得 到 的 树 用 if-then-else 这 种 三 元 组 的 形式 进行 表示 。 
【 例 7-7) 考虑 在 如 图 7-1 所 示 的 分 类 数据 上 执行 DecisionTreeLearner 过 程 。 初 始 调 
用 为 
decisionTreeLearner (Author , Thread „Length ,WhereRead |,UserAction Le, e35... sew ]) 
假定 停止 条 件 不 为 真 并 选择 特征 Length 作 分 裂 ， 则 调用 
decisionTreeLearner ([ WhereRead , Thread ,Author ] ,UserAction ,Le! ses se, ves ses serw seis |) 
此 时 所 有 的 样本 在 用 户 的 行为 上 取得 了 一 致 ( 即 UserAction 取 相 同 的 值 一 一 译 者 注 ) ， 因 此 
算法 返回 预测 值 sfips。 第 二 步 递 归 调 用 是 
decisionTreeLearner ([ WhereRead, Thread, Author |, UserAction, 
[es ves sër sea ye yeis reis seis v.616 seir sie 1) 
此 时 并 非 所 有 的 样本 在 用 户 的 行为 上 取得 了 一 致 ， 因 此 算法 再 选择 一 个 特征 作 分 裂 ， 假 定 
选择 的 特征 是 Thread. 最后， 递归 过 程 返回 Length 为 short 的 子 树 ， 例 如 
(Thread = new, reads ,( Author = unknown, skips, reads)) 
最 终 的 结果 是 
(Length = long skips ,( Thread = new, reads ,( Author = unknown, skips. reads)) > 
这 是 如 图 7-4 所 示 的 树 的 一 种 表示 形式 。 < 
如 图 7-5 所 示 的 学 习 算法 有 三 个 问题 没有 说 明 : 
。 算法 停止 的 条 件 。 这 些 条 件 包括 : 没有 输入 特征 、 所 有 样本 具有 相同 的 分 类 ， 或 
者 是 不 存在 能 够 提升 树 的 分 类 能 力 的 特征 分 裂 。 最 后 一 种 条 件 是 最 难 进 行 测 试 的 ， 
如 下 所 述 。 
。 叶子 节点 应 返回 什么 。 这 是 一 个 点 估计 问题 ， 因 为 这 个 步骤 忽略 了 所 有 的 其 他 输 
入 特征 。 预 测 值 通常 包括 : 最 有 可 能 的 分 类 、 中 位 数 或 平均 值 、 类 的 概率 分 布 ( 见 
习题 7. 9) 。 
。 选择 哪个 特征 进行 分 裂 。 目 标 是 选择 这 样 的 特征 ， 它 能 够 获得 最 小 的 决策 树 。 一 
般 的 方法 是 选择 目前 看 来 是 最 优 的 特征 ( 即 贪心 算法 一 一 译 者 注 ) 作 分 裂 : 如 果 学 
习 器 仅 允 许 一 次 分 裂 ， 哪 种 分 裂 能 获得 最 优 的 分 类 ? 如 果 采 用 平方 和 误差 准则 ， 
则 对 于 每 一 个 特征 确定 基于 该 特征 的 分 裂 得 到 的 树 的 误差 。 如 果 采 用 似 然 性 或 炉 
的 准则 ， 则 目前 最 优 的 分 裂 是 能 够 获得 最 大 信息 增益 (information gain) 的 分 裂 。 
信息 增益 有 时 也 在 采用 平方 和 误差 准则 的 情形 下 获得 应 用 。 习 题 7. 10 研究 了 基于 
Gini 指数 (Gini index) 的 方法 。 
【 例 7-8】 考虑 从 如 图 7-1 所 示 的 数据 上 学 习 用 户 的 行为 ， 我 们 选取 特征 进行 分 裂 ， 
该 特征 具有 最 大 信息 增益 或 最 小 化 焙 或 最 大 似 然 性 。 信 息 的 定义 可 参见 6. 1. 5 节 。 
所 有 样本 关于 特征 UserAction 的 信息 量 是 1.0， 因为 UserAction =reads 和 UserAc- 
tion =skips 的 样本 个 数 相 同 ， 均 为 9 个 。 
分 裂 特 征 Author 将 样本 分 为 Author = known 的 集合 Le1， ers ess ess egs Cros Ciz， 
i39 6I4， Css Ces e17 | 和 Author = unknown 的 集合 [Le > 3s €73 Cgs Crs ew]. 每 一 个 集 
合 均 被 不 同 的 用 户 行为 所 平分 ( 即 UserAction = reads 和 UserAction = skips 的 样本 个 数 相 
ED, ， 所 以 特征 Author 的 信息 增益 为 0。 在 这 种 情形 下 ， 知 道 Author 的 值 并 不 能 提供 关于 
用 户 行为 的 任何 信息 。 
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分 裂 特 征 Thread 将 样本 分 为 [el， Coy Ess Egs Cige lzy Crys Eiss C174 ers |] 和 [es， ejs 
ess Err Coy Ens C13， E16」]。 第 一 个 集合 (Thread 二 new) 包 含 3 个 UserAction = skips 的 样 
本 和 7 个 UserAction=reads 的 样本 ， 因 此 关于 用 户 行为 的 信息 量 为 

— 0. 3 X log:0. 3 — 0. 7 X logz0. 7 = 0. 881 
信息 增益 则 为 0. 119 。 

EWN, Thread=old 的 样本 数 根据 用 户 的 行为 可 划分 为 6: 2 的 比例 ， 信 息 量 是 
0. 811。 因 此 考 望 的 信息 增益 是 1.0 一 [(10/18) X0. 881+ (8/18) X0. 811]=0. 150, 

分 裂 特 征 Length 将 样本 分 为 Lel， C31 Cys Cpe Cor Clos er ] 和 [es， Cys €7» Ess ell， 
iss es eiss Cres Cire C18]。 前 者 在 UserAction 上 的 值 相同 ， 因 而 信息 量 为 0。 用 户 行为 
将 第 二 个 集合 划分 为 6: 2 的 比例 ， 信 息 量 是 0.684。 因 此 ， 期 望 的 信息 增益 是 1.0 一 11/ 
18X0. 684=0. 582。 这 是 所 有 特征 中 最 高 的 信息 增益 ， 所 以 选择 特征 Length ERR., 

关于 选择 哪个 特征 作 分 裂 ， 在 测试 之 前 所 有 的 特征 的 信息 量 是 一 样 的 ， 因 而 学 习 
Agent 可 以 选择 这 样 的 特征 ， 它 在 测试 之 后 的 信息 需求 最 小 。 本 

如 图 7-5 所 示 的 算法 假定 每 个 特征 仅 有 两 种 值 。 可 以 通过 下 述 方法 放松 这 种 限制 ， 

。 人 允许 多 路 分 裂 。 分 裂 多 值 变量 导致 值 域 中 的 每 一 个 值 均 对 应 着 一 棵 子 树 。 与 简单 

的 用 于 二 元 特征 的 if-then-else 形式 相 比 ， 这 意味 着 决策 树 的 表示 变 得 更 为 复杂 。 
这 里 有 两 个 问题 需要 考虑 。 第 一 个 是 怎样 处 理 没 有 训练 样本 的 特征 值 。 第 二 个 是 
对 于 大 多 数 的 贪心 分 裂 启发 式 规 则 (包括 信息 增益 ) 来 讲 ， 在 具有 更 多 值 的 变量 上 
作 分 裂 效 果 往 往 更 好 。 原 因 是 ,与 具有 较 少 值 个 数 的 特征 相 比 ， 它 能 产生 更 多 的 
子 树 以 便 与 数据 匹配 (见习 题 7. 8)。 然 而 ， 在 具有 较 少 值 个 数 的 特征 上 作 分 裂 能 使 
得 表示 更 为 简洁 。 

。 将 值 域 划 分 为 两 个 不 相交 的 子 集 。 当 值 域 是 全 序 的 (例如 是 实数 集 的 子 集 )， 可 以 
根据 某 个 阔 值 将 值 域 划分 为 小 于 该 闽 值 和 大 于 该 阔 值 的 两 个 子 集 。 例 如 ， 根 据 习 
值 域 中 的 某 个 值 w， 可 以 得 到 X<v 的 子 树 和 和 X 二 v 的 子 树 。v 的 目前 最 优 值 的 选 
择 可 以 这 样 来 实现 : 首先 根据 X 值 的 大 小 进行 排序 ， 然 后 考察 依据 各 个 值 划分 的 
效果 。 当 值 域 不 存在 一 个 自然 的 排序 关系 时 ， 可 以 在 值 域 的 子 集 上 进行 任意 划分 。 
在 这 种 情形 下 ， 目 前 最 优 的 划分 可 以 通过 数据 基于 类 别 概率 的 排序 来 找到 。 

如 果 数 据 中 存在 噪声 ， 上 述 算法 的 一 个 主要 问题 是 过 拟 合 (overfitting)。 当 算法 试图 
匹配 出 现在 训练 数据 中 的 某 些 特性 (还 未 出 现 的 样本 并 不 具有 这 样 的 特性 ) 时 产生 了 过 拟 
合 。 换 句 话说 ， 存 在 于 训练 数据 中 的 随机 关系 并 不 反映 数据 集 的 整体 关系 时 会 产生 过 拟 
合 。7. 5 节 会 讨论 检测 过 拟 合 的 方法 。 存 在 两 种 解决 决策 树 中 过 拟 合 问题 的 方法 : 

。 限制 分 裂 操 作 ， 即 仅 当 分 裂 特征 确实 有 用 时 才 进 行 分 裂 。 

。 允许 不 受 限制 的 分 裂 ， 但 对 最 终 的 决策 树 ( 该 决策 树 包含 一 些 无 根据 的 特性 ) 进 行 

剪 枝 。 

在 实践 中 ， 第 二 种 方法 的 效果 更 好 。 一 个 原因 是 存在 这 样 的 情况 : 两 个 特征 一 起 可 以 
预测 得 很 好 ， 但 单独 的 一 个 特征 并 不 十 分 有 效 。 这 可 以 从 下 面 的 例子 中 看 出 。 

(617-9) 假定 我 们 的 目标 是 预测 匹配 便士 博弈 的 赢 或 输 。 输 入 特征 有 三 个 : A, BA 
C，A 代表 第 一 枚 硬币 的 正面 或 反面 ，B 代表 第 二 枚 硬币 的 正面 或 反面 ，C 代表 是 否 有 喝 
彩 。 当 两 枚 硬币 均 为 正面 (或 反面 ) 时 ， 目 标 特 征 W ARC AM). IS. REA BH 
说 明 赢 了 。 这 个 例子 设计 得 颇 为 巧妙 ， 因 为 A 或 B 单独 均 无 法 提供 有 关 W 取 值 的 任何 信 
A. 可 是 A 和 B 一 起 却 可 以 准确 地 预测 W 的 值 。 一 种 可 能 的 分 裂 方 法 是 首先 选择 特征 C 
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进行 分 裂 ， 因 为 它 提供 最 大 的 信息 量 。 如 果 所 有 的 Agent 均 被 告知 选择 C， 这 样 做 比 选择 

A 或 B 更 有 效 。 然 而， 如 果 最 终 选 择 了 A 和 B 进行 分 裂 ， 则 在 C 上 的 分 裂 是 不 必要 的 。 

剪 枝 操 作 可 能 删除 C， 即 使 它 是 有 用 的 ; 而 算法 提前 结束 将 会 选择 C 上 的 分 裂 。 < 
关于 如 何在 模型 复杂 性 与 数据 匹配 之 间 进 行 折 中 的 问题 将 在 7. 5 节 进 行 讨 论 。 


7.3.2 线性 回归 与 分 类 


线性 函数 是 许多 学 习 算法 的 基础 。 本 节 首 先 讨论 回归 一 一 从 训练 数据 预测 实 值 函数 的 
问题 ， 然 后 讨论 分 类 问题 (目标 特征 取 离 散 值 ) 。 

线性 回归 (linear regression) 指 的 是 寻找 一 个 线性 函数 去 拟 合 训练 样本 集 的 输入 -输出 
对 ， 其 中 输入 特征 和 输出 特征 均 为 数值 型 。 


假定 输入 特征 是 Xi ，…，X,， 则 线性 函数 (linear function) 的 形式 为 
JEX oe Xn) = wo tum X Xi +--+ w, X Xa 


SP w=<w, wis s w, > MMA. ASG w 不 显得 那么 特殊 ， 可 以 引入 一 个 
新 的 特征 X。， 它 的 值 总 是 1。 j 

我 们 将 为 每 一 个 目标 特征 独立 地 学 习 一 个 函数 ， 这 里 考虑 仅 有 一 个 目标 特征 Y 的 情 
形 。 假 定 存在 一 个 样本 集 E, HP PENER e€ E ERIE X: 上 的 值 为 val(e，X;)， 在 目标 
特征 上 的 观察 值 为 va4(e，Y)， 则 目标 特征 的 预测 值 是 


poal? (e,Y) = wy 十 zl X wil(e,X,) +++ + w, X wl(e,X,) = Dw X wlle,X,) 
i=0 


其 中 我 们 显 式 地 表达 预测 是 依赖 于 权 值 的 ， 且 valle, X.)=1, 
在 样本 集 王 上 目标 特征 了 的 平方 和 误差 是 


Errors (@) = >) (al (esY) — poal®(es¥))? = > (ralle, Y) — Dw X mlle, Xd)? (7.1) 
€E EE i=0 


在 这 种 线性 的 情形 下 ， 可 以 解析 地 计算 出 最 小 化 误差 的 权 值 (见习 题 7. 5) 。 更 一 般 的 
方法 (适用 于 更 广泛 的 函数 类 型 ) 是 迭代 地 计算 权 值 。 

梯度 下 降 就 是 一 种 寻找 函数 最 小 值 的 迁 代 方法 。 它 首先 设 定 初始 的 权 值 ; 然后 在 每 一 
次 和 迭代 中 都 减少 权 值 (减少 的 量 与 其 偏 导 数 成 比例 ) : 

wis = ey — 9X aBer te) 

其 中 梯度 下 降 的 步 长 7 称 为 学 习 率 (learning rate) 。 学 习 率 、 特 征 以 及 数据 都 属于 学 
习 算 法 的 输入 部 分 。 偏 导数 指定 权 值 的 改变 如 何 影响 误差 的 改变 。 

考虑 最 小 化 平方 和 误差 ， 它 是 样本 集 上 的 误差 之 和 。 由 于 和 的 偏 导数 等 于 偏 导数 之 
和 ， 所 以 可 以 单独 考虑 每 一 个 样本 及 其 对 权 值 改变 的 影响 。 样 本 e 的 误差 对 于 权 值 w; 的 
偏 导数 是 一 2X[val(e,，Y) 一 pval™*(e，Y)]Xwal(e，X;)。 对 于 每 一 个 样本 e, g ô= 
val(e，Y) 一 pval*(e，Y)。 由 此 可 得 样本 。 更 新 权 值 ww; HAR: 

zs 一 了 十 了 XXX wille,X,) (7.2) 
上 式 中 我 们 忽略 了 常数 2， 因 为 它 可 以 被 常数 7 合并 。 

7-6 A T —t+4 H LinearLearner(X,-Y, E, PHARE., CFA—-TRMEH 
和 误差 的 线性 函数 。 注 意 在 第 17 行 ， 对 于 所 有 的 e，za!(e，Xe) 王 1。 算 法 的 终止 条 件 通 
常 包括 : 达到 给 定 的 迭代 次 数 、 误 差 足 够 小 或 值 的 改变 足够 小 。 


第 7 章 学 习 概 述 与 有 监督 学 习 201 


1; procedure LinearLearner(X, Y, E, 4) 
Inputs 
X: 输入 特征 的 集合 ，X 一 {X，…， 
Y: 目标 特征 
E: 用 于 学 习 的 样本 集 
7: 学 习 率 
Output 
参数 Wos ***s Wy 
Local 
Woy ts Wh: 实数 
pral®(e, Y)=wotw,tvalle, X,)++++w,X valle, X,) 


随机 初始 化 Wee ”To 


repeat 
for 三 中 的 每 一 个 样本 e do 
ô: =valle, Y)—pval*(e, Y) 
for 每 一 个 i€[0, njdo 
wi: =wetyxdxXvalle, X,) 
until 终止 


return Wos *, Ws 





7-6 采用 梯度 下 降 法 学 习 一 个 线性 函数 


上 述 算法 有 时 也 称 为 增 量 梯度 下 降 (incremental gradient descent) ， 因 为 它 通过 每 一 个 
样本 的 迭代 来 改变 权 值 。 另 一 种 可 行 的 方法 是 : 首先 在 每 次 循环 迭代 中 保存 权 值 ， 然 后 利 
用 这 些 权 值 计算 函数 值 ， 最 后 在 所 有 的 样本 都 处 理 完毕 后 更 新 权 值 。 这 个 过 程 计 算 误差 函 
数 的 真正 导数 ， 但 是 它 更 为 复杂 是 效果 通常 没有 增 量 梯度 下 降 法 好 。 

上 述 算法 同样 适用 于 其 他 误差 函数 。 对 于 绝对 误差 来 讲 ， 它 在 0 点 并 非 真 正 可 微 ， 但 在 
该 点 的 导数 可 定义 为 0， 因 为 此 时 误差 已 经 达到 最 小 ， 参 数 也 已 经 无 须 改变 。 见 习题 7. 12。 

扁 线 性 函数 

对 于 分 类 任务 来 讲 ， 线 性 函数 的 效果 并 不 好 。 当 仅 存 在 二 值 ( 即 0 和 1) 时 ， 学 习 器 应 
该 决 不 会 给 出 大 于 1 或 小 于 0 的 预测 值 。 可 是 为 了 更 好 地 匹配 其 他 样本 ， 线 性 函数 可 能 为 
某 个 样本 给 出 值 为 3 的 预测 。 

我 们 首先 考虑 二 分 类 ， 其 目标 变量 的 值 域 是 (0，1}。 如 果 存 在 多 重 二 元 目标 变量 ， 它 
们 可 以 单独 地 被 学 习 。 

对 于 分 类 问题 ， 我 们 经 常 使 用 一 个 扁 线 性 函数 (squashed linear function) ; 

FE CK Xa) = fw +w X Xi +e +H w XX,) 

了 也 称 为 激活 函数 (activation function)， 它 将 实数 映射 到 L0，1]。 利 用 扁 线性 函数 预测 目 
标 特征 的 值 ， 可 以 得 到 样本 e 在 目标 特征 Y 上 的 预测 值 ， 
poal®™ (e,Y) = flws +w X wile, X) ++ ws X wal (es, X,)) 
一 种 简单 的 激活 函数 是 阶 路 函数 (step function) f(z), HMA 
1 z>0 

l rz<0 
阶 跃 函数 是 感知 器 (perceptron)[Rosenblatt，1958j 的 基础 ， 感 知 器 是 最 早 提出 的 学 习 算 法 
之 一 。 为 阶 跃 函数 应 用 梯度 下 降 法 是 困难 的 ， 因 为 梯度 下 降 需 要 导数 而 阶 路 函数 是 不 可 
微 的 。 

如 果 激 活 函 数 是 可 微 的 ， 则 可 以 利用 梯度 下 降 法 更 新 权 值 。 平 方 和 误差 是 

Errors ©) = >) (ml(e,Y) — f( ul X walle, X:)) V 


EE 
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对 于 样本 e 而 言 ， 该 误差 关于 权 值 w; 的 偏 导 数 是 
OErrorr (w) 
Ow, 


其 中 6 二 val(e，Y) 一 pval*(e，Y)。 由 此 可 得 ， 样 本 。 更 新 权 值 ww; 的 公式 如 下 : 
wi: = w 9X 8X f (Dw X mille, 和) )X wl(eX,) 
一 种 典型 的 可 微 的 激活 函数 是 sigmoid BK logistic MA: 
f(r) = 


=—2 X 8X f (Dw X walle,X))X wllesX;) 


1 
IF e~ 
该 函数 的 图 像 如 图 7-7 所 示 ， 它 将 实 值 线 挤 压 到 区 间 (0，1) logistic 函数 适用 于 分 类 问 
题 ， 因 为 我 们 不 想 给 出 值 大 于 1 或 小 于 0 的 预测 。 它 同时 也 是 可 微 的 且 导 数 仅 由 输出 值 决 
定 ， 即 f(r) =flxz)X(1—fl2r)),. 


-10 -5 0 5 10 
7-7 sigmoid 或 logistic 函数 

可 以 将 如 图 7-6 所 示 的 算法 LinearLearner 作 一 些 改变 ， 以 利用 sigmoid 函数 。 这 可 
以 通过 将 算法 的 第 17 行 蔡 换 为 下 式 来 实现 : 

w: = wi 二 IXOX poal™ (esY) X [1 — poal*(e,Y)] X wll(e, X;) 
其 中 pual™(e,Y) = f(D) w: X valle, X:) ) 是 样本 。 的 目标 特征 Y 的 预测 值 。 

【 例 7-10) 考虑 学 习 一 个 扁 线性 函数 ， 目 标 是 对 如 图 7-1 所 示 的 数据 进行 分 类 。 能 正 
确 分 类 这 些 样 本 的 一 个 函数 是 

Reads = f(—8 +7 X Short +3 X New +3 X Known) 
其 中 f 是 sigmoid 函数 。 通 过 大 约 3 000 KAIRE F Bere HE CA E ?一 0.05) 可 以 找到 类 似 
上 式 的 函数 。 根 据 这 个 函数 ，Reads 为 真 (与 0 相 比 ， 预测 值 更 接近 1)， 当 上 且 仅 当 Short 
ABA New 或 Known 为 真 。 因 此 ， 这 个 线性 分 类 器 学 到 的 函数 与 决策 树 是 一 样 的 。 上 述 
工作 的 细节 可 参考 Alspace. org 网 站 上 神经 网 络 中 的 “mail reading”Java 小 程序 。 < 

采用 sigmoid 函数 作为 激活 函数 的 算法 可 以 处 理 任意 线性 可 分 的 分 类 问题 。 换 名 话 
说 ， 在 任意 样本 集 上 的 学 习 误差 可 以 任意 小 ， 当 且 仅 当 目 标 分 类 是 线性 可 分 的 。 一 个 分 类 
是 线性 可 分 (linearly separable) 的 ， 指 的 是 存在 一 个 超 平面 使 得 在 该 超 平面 的 一 侧 类 别 为 
真 ， 另 一 侧 为 假 。 超 平面 定义 为 预测 值 ， f° CX» ws Xn) = fw Hw X valle, X) 十 … 十 
w, Xval(e, X,)), Æ 0.5 的 那个 平面 。 对 于 sigmoid 激活 函数 来 讲 ， 当 所 学 得 的 权 值 w 
HL w Hw X valles, X,) ts Hw, X vale, rg ind el 
X,)) 王 0 时 得 到 该 超 平面 。 在 该 超 平面 的 一 侧 ， 
预测 值 大 于 0.5， 而 在 另 一 侧 则 小 于 0.5. 

图 7-8 给 出 了 or 和 and 的 线性 分 类 器 。 短 l 
划 线 将 正 ( 真 ) 类 和 负 ( 假 ) 类 分 开 。 一 种 简单 的 图 7-8 布尔 函数 的 线性 分 类 器 
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线性 不 可 分 函数 是 异 或 (xor) 函数 ( 见 图 的 右边 )， 此 时 不 存在 将 正 类 样本 和 人 负 类 样本 分 开 
. 的 直线 。 因 此 ， 线 性 分 类 器 无 法 表示 和 学 习 异 或 函数 。 

通常 先 验 地 确定 一 个 数据 集 是 否 线性 可 分 是 困难 的 。 

【 例 7-11】 考虑 如 图 7-9 所 示 的 数据 集 ， 它 用 于 预测 某 人 是 否 喜 欢 去 度假 ， 这 取决 于 
下 面 这 些 因 素 : 是 否 有 文化 积淀 ? 是 否 必须 坐 飞 机 ? 目的 地 的 天 气 很 热 吗 ? 有 音乐 吗 ? E 
否 有 自然 景观 ”在 该 数据 集中 ，1 表示 真 ，0 表示 假 。 线性 分 类 器 要 求 用 数值 表示 的 形式 。 

经 过 10 000 次 的 梯度 下 降 和 迭代 (学 习 率 取 
0.05) 之 后 ， 最 优 的 预测 函数 为 (保留 一 位 小 数 ) ， 

Likes = f(2.3 X Culture + 0.01 X Fly — 9. 1 X Hat 

— 4.5 X Music + 6.8 X Nature + 0.01) 

除了 最 后 和 倒数 第 三 个 样本 ， 该 函数 近似 地 预测 
了 训练 集中 所 有 样本 的 目标 值 。 最 后 和 倒数 第 三 
个 样本 的 预测 值 约 为 0. 5。 这 个 函数 对 于 不 同 的 
初始 化 值 显得 十 分 稳定 。 增 加 迭代 的 次 数 使 得 预 
测 其 他 样本 更 为 准确 。 < 

当 目 标 变量 的 取 值 个 数 大 于 2( 即 多 分 类 问 
题 )， 可 以 利用 指示 变量 将 多 分 类 问题 转化 为 二 
分 类 问题 。 这 些 二 分 类 问题 可 以 单独 地 被 学 习 。 
然而 ， 必 须 将 这 些 单独 的 分 类 器 组 合 起 来 预测 目 
标 变量 的 值 。 由 于 对 于 每 一 个 样本 来 说 必须 恰好 
有 一 个 值 为 真 ， 所 以 学 习 器 不 能 将 多 个 值 预测 为 真 
或 者 没有 一 个 值 为 真 。 预 测 值 为 概率 分 布 的 分 类 器 DO 关于 某 人 喜欢 去 哪里 度假 的 训练 数据 
可 以 将 多 个 单独 的 预测 加 以 标准 化 。 必 须 给 出 确定 性 预测 的 学 习 器 可 以 采用 上 述 模型 。 


7.3.3 贝 叶 斯 分 类 器 


贝 叶 斯 分 类 器 (Bayesian classifier) 基 于 这 样 的 思想 : 一 个 (自然 ) 类 的 作用 是 预测 该 类 
成 员 的 特征 值 。 样 本 组 成 类 是 因为 它们 具有 相同 的 特征 值 ， 这 样 的 类 往往 称 为 自然 类 
(natural kind) 。 在 本 节 中 ， 目 标 特 征 对 应 于 取 离 散 值 的 类 别 ， 且 该 类 别 并 不 一 定 是 二 分 
类 的 。 

如 果 Agent 知道 了 类 别 ， 它 就 能 预测 其 他 特征 的 值 一 一 这 是 贝 叶 斯 分 类 器 的 基本 思 
想 。 如 果 Agent 不 知道 类 别 ， 那 么 在 给 定 一 些 特征 值 的 前 提 下 ， 贝 叶 斯 规则 可 用 于 预测 类 
别 。 在 贝 叶 斯 分 类 器 中 ， 学 习 Agent 首先 建立 一 个 特征 的 概率 模型 ， 然 后 利用 该 模型 预测 
新 样本 的 类 别 。 

潜在 变量 指 的 是 未 被 观察 到 的 概率 变量 。 贝 叶 斯 分 类 器 是 一 种 概率 模型 ， 其 中 的 类 别 
是 与 观察 到 的 变量 概率 相关 的 潜在 变量 。 分 类 因而 转化 成 概率 模型 中 的 推理 。 

最 简单 的 形式 是 朴素 贝 叶 斯 分 类 器 ， 它 基于 独立 性 假设 : 在 给 定 类 别 的 前 提 下 ， 输 入 
特征 之 间 是 条 件 独立 的 。( 条 件 独立 的 定义 见 6.2 节 。) 

可 用 一 个 特殊 的 信念 网 络 来 表示 朴素 贝 叶 斯 分 类 器 的 独立 性 。 在 该 网 络 中 ， 特 征 作 为 
节点 ， 目 标 变量 (类 别 ) 没 有 父亲 节点 ， 类 别 是 每 一 个 输入 特征 的 唯一 父亲 。 这 样 的 信念 网 
络 需要 目标 特征 Y 的 概率 分 布 PC(Y) 和 每 一 个 输入 特征 X; 的 概率 分 布 已 (Xi |Y)。 对 于 每 
一 个 样本 ， 可 依据 观察 到 的 输入 特征 值 和 类 别 信息 计算 预测 值 。 
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给 定 具 有 输入 Xi Su, es XS 的 样本 ， 可 利用 贝 叶 斯 规则 计算 该 样本 类 别 Y 的 


后 验 概率 分 布 : 
POY |X, = 4 a =m) 
_ POX = ney Ky ul X POY) 
PCX, = yo X, = uy) 
_ PX =a, |Y) Xx POY = | x PY) 
PX = a |Y) XK POY = u |Y) X PY) 


其 中 分 母 是 一 个 归 一 化 常数 以 确保 概率 和 为 1。 由 于 分 母 不 依赖 于 具体 的 类 ， 所 以 并 不 需 


要 确定 最 可 能 的 类 。 
为 了 学 习 一 个 分 类 器 ， 如 7.2. 3 节 所 述 ， 可 以 从 数据 中 计算 得 到 每 个 输入 特征 的 概率 


分 布 PCY) AL P(CX,|Y)。 最 简单 的 方法 是 将 训练 数据 中 的 经 验 频率 作为 概率 ( 即 利用 占 训 
练 数 据 的 比例 作为 概率 ) 。 但 是 ， 当 存在 0 概率 的 时 候 这 并 非 是 一 个 好 方法 ， 如 下 所 述 。 
【 例 7-12】 给 定 如 图 7-1 所 示 的 Ts 

数据 ， 假定 Agent 想 预 测 用 户 的 行 

为 。 在 这 个 例子 中 ， 用 户 的 行为 就 是 

类 别 。 这 里 的 朴素 贝 叶 斯 分 类 器 对 应 Author D C Thread > Length > 

7-10 所 示 的 信念 网 络 。 I 
TURTO BN BOT LMU 图 7-10 对 应 于 一 个 村 率 贝 叶 斯 分 类 如 的 信念 网 


样本 用 于 确定 信念 网 络 所 需 的 概率 。 
限定 Agent 利用 经 验 频率 作为 样本 的 概率 。 这 些 可 愉 数据 中 导出 的 概率 如 下 ; 


P(UserAction = reads) = 5 =0.5 
P( Author = known | UserAction = reads) = = 
P(Author = known | UserAction = wips) = $ 
P( Thread = new | UserAction = reads) = + 
ea 
3 


P( Thread = new |UserAction = skips) = 


P(Length = long |UserAction = reads) = 0 


~ 


P(Length = long | UserAction = skips) = 可 
P(whereRead = home | UserAction = reads) = = 
4 


P(WhereRead = home |UserAction = skips) = 
从 这 些 概率 可 以 看 出 ， 特 征 Author 和 nee 没有 预测 能 力 ， 因 为 它们 的 取 值 不 影响 
用 户 将 阅读 文章 的 概率 。 本 实例 的 剩余 部 分 将 忽略 这 些 特 征 。 
对 于 一 个 新 样本 (特征 Author, Thread, Length 和 WhereRead 的 值 分 别 是 unknown , 
followUp, short 和 home)， 我 们 有 
P (UserAction = reads | Thread = followUp A Length = short) 
= P( followUp | reads) X P(short | reads) X P(reads) X c 


2 1 
=g XIX Xe 


=ixe 
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P (UserAction = skips | Thread = followUp A Length = short) 
= P( followUp | skips) X P(short | skips) X P(skips) X ¢ 
2 2 1 


XQ XZ Xe 


3 
其 中 < 是 归 一 化 常数 ， 用 以 保证 上 述 两 者 的 和 为 1。 显然，c 必须 为 所 ， 所 以 

P(UserAction = reads | Thread = followUp A Length = short) = 0.6 

这 样 的 预测 对 于 样本 eu 无效 ， 即 虽然 Thread W followUp H. Length 取 short, FAP 
的 行为 却 是 seizs。 朴 素 贝 叶 斯 分 类 器 将 数据 归结 为 一 些 参数 的 求 了 到 。 它 预测 用 户 将 阅读 
文章 的 原因 是 : Length=short 是 将 阅读 文章 的 信号 ，Thread= followUp 是 将 略 过 文章 
的 信号 ， 前 者 的 指示 强度 大 于 后 者 。 

XIF Length Klong 的 新 样本 ， 我 们 有 PC Length=long | UserAction=reads)=0. A 
此 ， 无 论 其 他 特征 取 什 么 值 ，UserAction 王 reads 的 后 验 概率 都 等 于 0。 < 

0 概率 的 使 用 会 导致 一 些 不 可 预测 的 后 果 。 首 先 ， 一 些 特征 变 得 具有 预测 能 力 : 仅仅 
知道 一 个 特征 的 值 就 能 排除 一 个 类 别 。 如 果 人 允许 0 概率 ， 组 合 一 些 观察 值 是 不 可 能 的 ， 见 
习题 7. 13 。 使 用 贝 叶 斯 分 类 器 ，0 概率 问题 并 非 一 定 是 必然 的 ， 但 将 经 验 频率 作为 概率 就 
会 出 现 0 概率 问题 。 使 用 经 验 频率 (同时 避免 0 概率 问题 ) 的 一 个 可 行 方法 是 引进 伪 计 数 。 
正如 下 面 的 例子 所 述 ， 学 习 器 的 设计 者 应 该 小 心地 选择 伪 计数 。 

【 例 7-13) 考虑 例 6-16 所 示 的 帮助 系统 ， 其 中 帮助 Agent 根据 用 户 给 定 的 关键 词 推 断 
用 户 感 兴趣 的 帮助 页 面 。 对 于 这 样 的 一 个 系统 ， 我 们 如 何 学 习 其 中 的 概率 ? 帮助 Agent 必须 
知道 两 种 概率 : 每 个 帮助 页 面 (这 些 页 面 是 用 户 想 要 的 ) 的 先 验 概 率 ; 给 定 帮 助 页 面 的 前 提 
下 ， 每 个 关键 词 的 概率 。 必 须 学 习 这 些 概率 的 原因 是 系统 设计 者 预先 并 不 知道 用 户 会 使 用 什 
么 词语 。 当 用 户 寻求 帮助 的 时 候 ，Agent 能 从 用 户 真正 使 用 的 词语 中 学 得 这 些 概率 。 

学 习 器 必须 知道 PCH). WE, CEARA h 一 个 伪 计 数 。 可 以 为 那些 预先 知道 将 
更 可 能 被 使 用 的 页 面 设 定 更 大 的 伪 计 数 。 如 果 设 计 者 并 没有 关于 什么 页 面 将 更 可 能 被 使 用 
的 先 验 信念 ， 则 Agent 可 以 为 所 有 页 面 设 定 相 同 的 伪 计 数 。 至 于 使 用 什么 样 的 计数 ， 设 计 
者 必须 考虑 这 样 的 一 个 问题 : 在 Agent 看 过 一 个 页 面 之 后 ， 它 有 多 大 程度 信任 该 页 面 正 是 
所 需要 的 ? 见 7. 2. 3 节 。 如 果 设 计 者 已 经 通过 优化 训练 数据 上 的 擅 计 数 ( 或 通过 使 用 层次 
贝 叶 斯 模型 ) 建 立 了 另外 一 个 帮助 系统 ， 学 习 这 样 的 伪 计 数 是 可 能 的 。 给 定 伪 计 数 和 一 些 
数据 ， 可 以 计算 P(h;)， 方 法 是 将 所 有 页 面 的 计数 和 除 以 与 h; 相关 的 计数 (经 验 计 数 加 上 
伪 计 数 )。 

对 于 词 W; 和 页 面 h;， 帮助 Agent 需要 两 种 计数 ， 即 当 hi 是 合适 的 页 面 时 ， 使 用 词 
w BARGA cf ) 和 未 使 用 词 w; 的 个 数 ( 记 为 器 )， 它 们 都 不 应 是 0。 我 们 期 望 从 平均 意 
义 上 讲 吕 大 于 cy ， 原 因 是 我 们 希望 一 个 查询 平均 上 只 使 用 所 有 词语 中 的 一 小 部 分 词 。 我 
们 可 能 为 出 现在 帮助 页 面 h; 里 的 那些 词 和 不 出 现在 h; 里 的 那些 词 设 定 不 同 的 计数 ， 以 便 
系统 从 合乎 情理 的 状态 开始 运行 。 

每 当 用 户 声称 找到 了 他 们 感 兴趣 的 帮助 页 面 时 ， 都 要 更 新 该 页 面 的 计数 和 所 有 词语 的 条 
件 计 数 。 具 体 的 ， 如 果 用 户 宣称 h 是 其 感 兴趣 的 页 面 ， 则 增 大 与 h HERK c A c o 

上 述 模 型 没有 使 用 有 关 错 误 页 面 ( 即 不 感 兴 趣 的 页 面 一 一 译 者 注 ) 的 信息 。 如 果 用 户 声 
称 一 个 页 面 不 是 他 感 兴趣 的 ， 这 种 信息 需要 在 找到 正确 的 页 面 ( 即 感 兴 趣 的 页 面 一 一 译 者 
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注 ) 之 后 才 可 能 被 使 用 。 

构建 这 样 一 个 帮助 系统 的 最 大 挑战 不 在 于 学 习 本 身 ， 而 在 于 获得 有 用 的 数据 。 特 别 
的 ， 用 户 可 能 并 不 知道 他 们 是 否 找 到 了 他 们 想 要 的 页 面 ， 因 而 也 就 可 能 不 知道 何 时 停止 寻 
找 和 给 出 学 习 系 统 所 需要 的 反馈 信息 。 一 些 用 户 可 能 对 所 有 页 面 都 不 满意 。 事 实 上 ， 令 用 
户 满意 的 页 面 可 能 一 个 也 不 存在 ， 但 这 种 信息 并 没有 反馈 给 学 习 者 。 另 一 方面 ， 一 些 用 户 
可 能 指出 他 们 已 经 找到 了 想 要 的 页 面 ， 即 使 可 能 存在 另 一 个 更 合适 的 页 面 。 后 面 一 种 情形 
可 能 导致 正确 页 面 的 计数 减少 ， 从 而 使 得 发 现 不 了 该 页 面 。 < 

虽然 存在 一 些 朴素 贝 叶 斯 分 类 器 的 结果 不 好 的 情形 ， 但 总 的 来 说 它 是 一 种 非常 简单 、 
易于 实现 、 大 多 数 情况 下 效果 非常 好 的 学 习 算 法 。 对 于 一 个 新 问题 尝试 使 用 朴素 贝 叶 斯 
分 类 器 是 一 种 不 错 的 选择 。 

一 般 而 言 ， 朴 素 贝 叶 斯 分 类 器 在 满足 独立 性 假设 ( 即 关 是 其 他 特征 的 一 个 很 好 的 预测 
器 和 给 定 类 的 条 件 下 其 他 特征 是 独立 的 ) 的 时 候 工 作 良 好 。 通 过 自然 演化 形成 的 自然 类 应 
该 满足 独立 性 假设 ， 它 们 有 助 于 人 类 区 别 不 同 的 对 象 。 自 然 类 通常 与 名 词 相关 ， 例 如 狗 类 
或 椅子 类 。 


7.4 组 合 模 型 


决策 树 、 扁 线性 函数 和 贝 叶 斯 分 类 器 是 其 他 许多 有 监督 学 习 技 术 的 基础 。 线 性 分 类 器 
的 表示 能 力 是 非常 受 限 的 。 虽然 决策 树 能 够 表示 任意 的 离散 函数 ， 但 是 许多 简单 函数 的 决 
策 树 表示 十 分 复杂 。 贝 叶 斯 分 类 器 使 用 一 个 先 验 的 建 模 假设 ， 它 在 实际 问题 中 可 能 失效 。 

增强 线性 函数 的 表示 能 力 的 一 种 方法 是 : 增加 一 些 输 入 特征 ， 使 得 线性 函数 变 为 原始 
输入 特征 的 某 种 非 线性 函数 。 增 加 这 些 新 特征 可 能 增加 空间 的 维度 ， 使 得 某 些 函数 在 低 维 
空间 不 是 线性 的 (或 线性 可 分 的 )， 但 在 高 维 空间 却 是 线性 的 。 

Cl 7-14) RRM. xz, xor x2， 在 三 维 空间 K, X: Maz, 上 是 线性 可 分 的 ， 其 中 
zizxz 是 一 个 新 特征 ， 其 取 值 规则 是 : 当 zk 和 zz 两 者 都 为 真 时 结果 为 真 。 为 了 可 视 化 这 个 
结果 ， 考 虑 图 7-8: 通过 增加 oe, 为 第 三 维特 征 ， 图 中 右上 角 的 点 将 越 出 页 面 边界 ， 从 而 
允许 获得 一 个 线性 分 离 器 (此 时 是 一 个 平面 )。 < 

支持 向 量 机 (support vector machine，SVM) 可 用 于 分 类 ， 它 利用 原始 输入 的 函数 作为 
线性 函数 的 输入 。 这 些 用 作 输 入 的 函数 称 为 核 函 数 (kernel function)。 存 在 许多 可 能 的 核 
函数 ， 原 始 特征 的 积 就 是 一 个 例子 ， 增 加 特征 的 积 作 为 新 的 特征 足以 表示 异 或 函数 。 然 
而 ， 增 加 空间 的 维度 可 能 导致 过 拟 合 。 支 持 向 量 机 构建 一 个 决策 面 ( 超 平面 )， 用 以 将 正 类 
样本 和 负 类 样本 在 高 维 空间 中 隔 开 。 间 隔 Cmargin) 定 义 为 从 决策 面 到 任意 样本 的 最 小 距 
离 。 支 持 向 量 机 寻找 具有 最 大 间隔 的 决策 面 。 最 靠近 决策 面 的 样本 ( 即 支持 向 量 ) 支 撑 起 这 
个 决策 面 。 特 别 的 ， 如 果 删 除 这 些 样本 ， 则 决策 面 会 发 生变 化 。 支 持 向 量 使 得 能 够 用 比 样 
本 个 数 少 很 多 的 参数 定义 决策 面 ， 从 而 避免 了 过 拟 合 。 有 关 支 持 向 量 机 的 更 详细 描述 见 本 
章 末 尾 的 参考 文献 。 

神经 网 络 允许 扁 线 性 函数 的 输入 是 带 有 和 需 调 整 参数 的 扁 线 性 函数 。 将 多 层 扁 线 性 函数 
作为 预测 目标 变量 的 扁 线 性 函数 的 输入 ,使 得 神经 网 络 能 够 表示 更 为 复杂 的 函数 。 神 经 网 
络 将 在 后 面 作 进一步 前 述 。 

另 一 种 非 线 性 的 表示 形式 是 回归 树 (regression tree) ， 它 是 决策 树 的 一 种 ， 只 不 过 时 
子 节点 是 一 个 扁 线 性 函数 。 回 归 树 可 以 近似 地 表示 分 段 线性 函数 。 与 回归 树 类 似 ， 决 策 树 
的 叶子 甚至 可 以 是 神经 网 络 或 支持 向 量 机 。 为 了 分 类 一 个 新 样本 ， 先 将 它 顺 着 树 往 下 过 
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滤 ， 然 后 使 用 叶子 节点 上 的 分 类 器 分 类 该 样本 。 

可 以 对 朴素 贝 叶 斯 分 类 器 进行 扩展 ， 人 允许 存在 一 些 特征 是 类 别 的 父 节 点 和 子 节点 。 在 给 
定 父 节 点 的 前 提 下 ， 类别 的 概率 可 以 表示 成 决策 树 ( 或 扁 线性 函数 ,或 神经 网 络 )。 类 别 的 子 
节点 不 必 是 独立 的 ， 可 以 表示 为 树 增 强 朴素 贝 叶 斯 网 络 (tree augmented naive Bayesian 
network) ， 在 该 网 络 中 ， 子 节点 除了 类 别 节 点 ,还 允许 一 个 其 他 父 节点 的 存在 (只 要 最 终 的 
结果 图 是 无 环 的 ) 。 这 种 简单 的 模型 解释 了 子 节 点 之 间 的 相互 依赖 性 。 一 种 可 替代 的 方法 
是 在 类 变量 中 引 人 和 人 结构。 潜在 树 模型 (latent tree model) 将 类 变量 分 解 成 一 系列 的 潜在 变 
量 ， 这 些 变量 通过 树 结 构 连 接 在 一 起 。 每 一 个 观察 到 的 变量 都 是 其 中 一 个 潜在 变量 的 子 节 
点 。 潜 在 变量 允许 对 观察 到 的 变量 之 间 的 依赖 性 进行 建 模 。 

另外 一 种 方法 是 使 用 多 个 分 类 器 : 首先 在 数据 上 分 别 训练 这 些 分 类 器 ， 然 后 利用 一 些 
诸如 投票 或 线性 函数 的 机 制 将 这 些 分 类 器 组 合 在 一 起 。 这 种 技术 就 是 所 谓 的 集成 学 习 。 


7.4.1 神经 网 络 


神经 网 络 是 一 种 流行 的 用 于 学 习 的 目标 表示 形式 。 神 经 网 络 是 受到 大 脑 神经 元 的 启发 
而 提出 的 ， 但 并 没有 真正 模拟 神经 元 。 与 人 类 大 脑 中 存在 的 大 约 10 个 神经 元 相 比 ， 人 工 
神经 网 络 包含 的 神经 元 ( 称 为 单元 ) 个 数 通常 要 少 得 多 ; 此 外 ， 与 生物 学 意义 上 的 神经 元 相 
比 ， 这 些 单元 要 简单 得 多 。 
人 工 神经 网 络 是 一 个 有 趣 的 研究 课题 ， 原 因 如 下 : 
。 作为 神经 系统 科学 的 一 个 部 分 ， 为 了 理解 真正 的 神经 系统 ， 和 研究 人 员 模 拟 了 一 些 
诸如 蠕虫 之 类 的 低 等 动物 的 神经 系统 。 这 些 研究 有 望 理 解 究 竟 是 神经 系统 的 哪些 
方面 解释 了 这 些 动物 的 行为 。 
。 一 些 研究 人 员 试 图 不 仅 自动 化 实现 智力 的 功能 (人 工 智 能 研究 的 内 容 )， 而 且 自 动 化 
构造 大 脑 的 结构 。 一 个 假设 是 ， 实 现 大 脑 功能 的 唯一 途径 是 使 用 与 大 脑 一 样 的 结构 。 
测试 该 假设 的 方法 是 ， 分 别 通过 使 用 与 不 使 用 大 脑 的 结构 来 尝试 智能 的 实现 。 构 造 
其 他 机 器 (一 个 例子 是 飞行 器 ， 它 使 用 与 鸟 飞行 相同 的 原理 ,但 结构 不 同 ) 的 实验 预 
示 着 该 假设 可 能 不 成 立 。 虽 然 如 此 、 测试 该 假设 是 一 个 令 人 感 兴 趣 的 工作 。 
。 大 脑 启 发 一 种 与 现存 计算 机 不 同 的 计算 新 方法 。 与 现在 的 计算 机 不 同 ， 它 具有 更 
少 的 处 理 器 和 大 量 的 本 质 上 是 惰性 的 存储 器 ,“ 大 脑 ” 由 大 量 的 异 构 的 分 布 式 过 程 
组 成 (这 些 过 程 并 发 执行 ， 不 存在 主 控制 器 )。 我 们 不 应 认为 目前 的 计算 机 是 用 于 
计算 的 唯一 体系 结构 。 
。 与 其 他 学 习 算 法 (例如 决策 树 ) 相 比 ， 神 经 网 络 提 供 了 一 种 不 同 的 简洁 性 度量 作为 
学 习 的 偏 置 。 多 层 神 经 网 络 和 决策 树 一 样 ， 能 表示 离散 特征 集 的 任意 函数 。 但 是 ， 
能 用 简单 神经 网 络 表示 的 函数 不 一 定 能 用 简单 的 决策 树 表 示 。 神 经 网 络 与 决策 树 
提供 了 不 同 的 学 习 偏 置 ， 在 实践 中 究竟 哪个 更 好 是 一 个 经 验 性 的 问题 ， 可 以 通过 
在 不 同 领域 的 测试 来 判定 。 
存在 许多 不 同 种 类 的 神经 网 络 ， 本 书 考虑 其 中 的 一 种 ， 即 前 馈 神经 网 络 (feed-forward 
neural network)。 前 馈 神经 网 络 可 以 看 成 级 联 的 扁 线 性 函数 。 输 入 数据 进入 隐藏 单元 层 
(可 以 有 多 层 )， 最 终 进 入 输出 层 。 每 个 隐藏 单 元 层 都 是 其 输入 的 扁 线性 函数 。 

这 种 神经 网 络 的 输入 可 以 是 多 个 任意 实数 ， 输 出 的 是 一 个 实数 。 对 于 回归 问题 ， 通 常 
输出 单元 提供 的 是 其 输入 的 线性 函数 ; 而 对 于 分 类 问题 ， 通 常 输出 单元 提供 的 是 其 输入 的 
sigmoid 函数 (因为 不 可 能 有 超出 [0，1] 范 围 的 预测 值 ) 。 对 于 隐藏 单元 层 来 说 ， 和 输出 是 其 
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输入 的 线性 函数 是 不 可 能 的 ， 因 为 线性 函数 的 线性 函数 是 一 个 线性 函数 。 增 加 额外 的 层次 
并 不 能 带 来 新 的 功能 。 因 此 ， 每 一 个 隐 层 单元 的 输出 是 其 输入 的 一 个 扁 线 性 函数 。 

与 神经 网 络 相关 的 是 所 有 线性 函数 的 参数 。 可 以 同时 调 优 这 些 参 数 ， 方 法 是 通过 最 小 
化 训练 样本 上 的 预测 误差 来 实现 。 

【 例 7-15】 图 7-11 给 出 了 只 有 一 个 隐 层 的 神经 网 络 ， 用 于 处 理 如 图 7-9 所 示 的 分 类 
数据 。 如 例 7-11 所 解释 ， 这 个 数据 集 不 是 线性 可 分 的 。 该 数据 集 有 5 个 布尔 输入 特征 ， 
分 别 对 应 于 是 否 有 文化 积淀 、 是 否 必须 坐 飞 机 、 目 的 地 是 否 很 热 、 是 否 有 音乐 、 是 否 有 
自然 景观 5 个 因素 ; 唯一 的 输出 特征 对 应 于 人 是 和 否 喜 欢 去 度假 。 在 该 神经 网 络 中 ， 只 有 
一 个 包含 两 个 隐藏 单元 的 隐 层 ， 其 中 隐藏 单元 没有 先 验 的 含义 。 这 个 网 络 表 示 了 下 列 
AR: 

poal(e,Likes) = fCws + w X talle, H1) + w: X twal Ce, H2)) 

wal (e, H1) = fCws + w, X wal (e, Culture) + ws X wul (e, Fly) 
+ w; X wl (e, Hot) + w, X val (e,Music) + ws X ul Ce, Nature) ) 
wul (e, H2) = flw, + wo X wal (e, Culture) + w; X walle, Fly) 
+ wi X wml le, Hot) + wy X twal le, Music) + wy X wl le, Nature )) 
其 中 f(z) 是 一 个 激活 函数 。 

对 于 这 个 例子 来 说 ， 需 要 学 习 15 个 实数 (参数 ) (rwo，…，wis)， 因 此 假设 空间 是 一 个 

15 维 的 实 值 空间 。 空 间 中 的 每 一 个 点 对 应 于 一 个 函数 ， 它 预测 每 个 样本 的 输出 值 。 


隐藏 单元 


输出 单元 





图 7-11 带 有 一 个 隐 层 的 神经 网 络 ， 其 中 w 是 权 值 。 节 点 里 面 的 权 值 不 
依赖 于 输入 ， 其 系数 为 1。 该 神经 网 络 的 涵义 见 例 7-15 < 


给 定 参数 值 和 输入 值 ， 神 经 网 络 预测 目标 特征 的 值 。 神 经 网 络 的 目标 是 : 给 定 样本 
集 ， 和 寻找 最 小 化 误差 的 参数 值 。 如 果 存 在 m 个 参数 ,寻找 具有 最 小 误差 的 参数 值 涉 及 搜索 
一 个 m 维 的 欧 氏 空间 ，。 

反 向 传播 学 习 (back-propagation learning) 是 在 参数 空间 进行 梯度 下 降 搜 索 以 最 小 化 平 
方 和 误差 。 

图 7-12 给 出 了 带 有 一 个 隐 晨 的 神经 网 络 的 反 向 传播 算法 ( 增 量 梯度 下 降 版 本 )。 该 算 
法 假定 有 ?7 个 输入 特征 、& 个 输出 特征 和 mx 个 隐藏 单 元 。hw 和 ow 是 用 于 保存 权 值 的 二 
SERA. 0: m 是 从 0 到 mn (dG mW FER, 1: m 是 从 1 到 nw( 包 括 nna) 的 下 标 。 该 算法 
假定 对 于 所 有 的 e, valle, X,)=1, 
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1; procedure BackPropagationL_earner(X, Y, E, nas m 
Inputs 
X: 输入 特征 的 集合 ， X={X,, +, Xa) 
Y, 目标 特征 的 集合 ， Y=(Y,, ra Yx} 
E: 用 于 学 习 的 样本 集 
n: 隐藏 单元 的 个 数 
7: SOR 
Output 
隐藏 单元 权 值 hze[0: n, 1: m] 
输出 单元 权 值 ow[0: m, 1: k] 
Local 
hwlO: n, 1: n RIEAN 
ow[0: n. 1: &] 输 出 单元 权 值 
hid[0: nj 隐藏 单元 的 值 
hErr[1; ns] 隐 藏 单元 的 误差 
out[1: 输出 单元 的 预测 值 
oErr[1; 输出 单元 的 误差 
随机 初始 化 hw Al ow 
hid[0]: =1 
repeat 
forE 中 的 每 一 个 样本 e do 
for 每 一 个 AE{1，…，mun jdo 


hid[h]: = ju X ulle, X;) 
jb 
for 每 一 个 h€ (1，…，K}do 
out[Lo];: = Slew Lik] X hid Ch] 
=0 


oErr[Lo]; = out[o0] X (1 — out[o]) X (wl(e,Y,) — out[o]) 
for 每 一 个 hE {0, =+, nx}do 


k 
hErr[h]: = hid[h] X (1 — hid [h]) X X ow[h,0] X oErr[o] 


for 每 一 个 i€ {0, =, n}do 
hkwlish]: = hwlishk] + nx hErr[h] X wale, X;) 
for 每 一 个 o0€ {1, «+, k}do 
ow ho]: = owLlh,o] + nX oErr[o] X hid[h] 
until 终止 


return wo, s Wy 





图 7-12 带 有 一 个 隐 层 的 神经 网 络 的 反 向 传播 学 习 算法 


反 向 传播 算法 与 如 图 7-6 所 示 的 线性 学 习 器 类 似 ， 不 同 的 是 前 者 考虑 了 多 层 结构 和 激 
活 函 数 。 直 观 地 ， 对 于 每 一 个 样本 ， 首 先 确定 隐藏 单元 的 值 (第 23 行 ); 然后 确定 输出 单 
元 的 值 (第 25 行 ); 接着 将 误差 通过 网 络 反 向 传播 (计算 输出 节点 和 隐藏 节点 上 的 误差 分 别 
TUS 26 行 和 第 28 行 ); 最 后 基于 误差 的 导数 更 新 权 值 。 l 

梯度 下 降 搜索 需要 反复 估算 欲 最 小 化 的 函数 (这 里 指 误差 ) 及 其 导数 。 估 算 误 差 涉及 在 
所 有 样本 上 的 和 迭代 计算 。 因 此 ， 反 向 传播 学 习 需 要 在 所 有 样本 上 反复 评估 神经 网 络 的 性 
能 。 幸 运 的 是 ， 我 们 采用 了 logistic 函数 一 一 给 定 每 个 单元 的 输出 值 计算 logistic 函数 的 导 
数 是 很 容易 的 。 

【 例 7-16】 如 图 7-11 所 示 的 带 有 一 个 隐 层 的 神经 网 络 ( 其 中 的 隐 层 包含 两 个 单元 )， 
经 过 在 如 图 7-9 所 示 的 数据 的 训练 之 后 ， 可 以 完美 地 匹配 这 些 数据 。 

当 学 习 率 设 为 ?一 0. 05 时 ， 和 运行 一 次 反 向 传播 算法 (经 过 10 000 次 迭代 步骤 )， 最 后 学 
得 的 权 值 能 准确 地 对 训练 数据 进行 预测 : 
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H1 = f(— 2.0 X Culture — 4. 43 X Fly+2.5X Hot + 2. 4 X Music — 6. 1 Nature + 1. 63) 
H2 = f(— 0. 7 X Culture + 3.0 X Fly + 5.8 X Hot + 2.0 Music — 1. 7 X Nature — 5. 0) 
Likes = f(— 8.5 X H1 — 8.8 X H2 +4.36) < 


神经 网 络 的 运用 似乎 对 要 求 符 号 具有 实际 含义 的 物理 符号 系统 假设 (physical symbol 
system hypothesis) 提 出 了 挑战 。 对 于 神经 网 络 的 部 分 质疑 是 ， 虽然 输入 和 输出 单元 符号 
的 含义 明确 ， 但 设计 者 并 没有 给 出 隐藏 单 元 的 实际 含义 。 隐 藏 单元 真正 表示 的 是 所 学 到 的 
某 些 知识 。 在 神经 网 络 训练 完 毕 之 后 ， 察 看 网 络 的 内 部 细节 以 确定 隐藏 单元 真正 表示 的 是 
什么 通常 是 可 能 的 。 有 时 候 可 以 用 语言 简明 地 表达 这 种 含义 ， 但 通常 无 法 做 到 。 然 而 ， 可 
以 说 计算 机 自 有 其 内 部 的 含义 ; 通过 考察 样本 是 如 何 映射 为 隐藏 单 元 的 值 可 以 解释 其 内 部 


7. 4.2 集成 学 习 


在 集成 学 习 (ensemble learning) 中 ，Agent 首先 运行 多 个 学 习 算 法 ， 然后 组 合 这 些 算 
法 的 输出 结果 进行 预测 。 用 于 组 合 的 学 习 算 法 称 为 基准 算法 (base-level algorithm), 

集成 学 习 的 最 简单 情形 是 在 数据 的 随机 子 集 上 训练 基准 算法 ， 然 后 要 么 通过 投票 选择 
最 可 能 的 类 别 ( 对 于 确定 性 的 预测 而 言 )， 要 么 取 基 准 算法 预测 的 平均 值 作 为 最 终 的 结果 。 
例如 . 我 们 可 以 在 随机 样本 集 ( 占 训练 数据 的 50%) 上 训练 多 棵 决策 树 ， 然 后 投票 选择 最 可 
能 的 分 类 或 取 预 测 的 平均 值 作 为 结果 。 决 策 树 的 输出 甚至 可 以 作为 线性 分 类 器 的 输入 。 线 
性 分 类 器 的 权 值 可 以 通过 学 习 获 得 。 

这 种 方法 在 基准 算法 不 稳定 (unstable) 的 情形 下 工作 良好 : 基准 算法 依据 所 选择 的 数 
据 子 集 倾 向 于 产生 不 同 的 表示 形式 。 决 策 树 和 神经 网 络 是 不 稳定 的 ， 但 线性 分 类 器 的 稳定 
性 较 好 ， 因 此 采用 线性 分 类 器 做 集成 效果 可 能 较 差 。 

在 bagging 方法 中 ， 若 存在 m 个 训练 样本 ， 则 将 随机 有 放 回 采样 的 m 个 样本 组 成 的 
数据 子 集 用 于 基准 算法 的 训练 。 对 于 每 个 这 样 的 数据 子 集 ， 训 练 数据 中 的 有 些 样 本 未 被 选 
中 、 有 些 样本 则 多 次 被 选中 。 平均 每 个 数据 子 集约 占 原 始 训练 数据 的 63% 

在 提升 (boosting ) 方 法 中 ， 存 在 一 系列 的 分 类 器 ， 每 个 分 类 器 使 用 一 个 加 权 的 样本 集 。 
那些 被 先前 分 类 器 误 分 的 样本 会 获得 更 大 的 权 值 。 加 权 的 样本 可 用 于 训练 基准 分 类 器 ， 也 
可 以 影响 训练 样本 的 选择 (这 些 样 本 用 于 训练 未 来 分 类 器 ) 。 

构建 基准 分 类 器 的 另 一 种 方法 是 对 输入 特征 进行 操纵 分 解 。 可 以 在 不 同 的 特征 上 训练 
基准 分 类 器 。 这 些 特 征集 通常 由 手工 调整 获得 。 

此 外 ， 也 可 以 通过 随机 化 算法 的 途径 获得 多 种 基准 分 类 器 。 例 如 ， 对 参数 设置 不 同 的 
初始 值 可 能 导致 神经 网 络 收敛 于 不 同 的 局 部 最 小 值 ， 进 而 给 出 不 同 的 预测 值 。 这 些 不 同 的 
神经 网 络 (参数 的 初始 值 不 同 ) 可 以 组 合 起 来 进行 预测 。 


7.5 避免 过 拟 合 


过 拟 合 的 情形 会 在 下 述 情况 中 出 现 : 训练 数据 具有 的 一 些 规则 并 不 符合 测试 数据 ， 而 
学 习 者 应 用 这 些 规则 作 预 测 。 

【 例 7-17】 图 7-13 展示 了 平方 和 误差 是 如 何 随 着 线性 回归 算法 迭代 次 数 的 变化 而 变 
化 的 。 随 着 迭代 次 数 的 增加 ， 训练 集 上 的 平方 和 误差 是 不 断 减 小 的 。 而 对 于 测试 集 来 说 ， 
随 着 和 迭代 次 数 的 增加 ， 误 差 先是 到 达 一 个 最 小 点 ， 然 后 又 增加 了 。 在 决策 树 学 习 中 ， 当 分 
裂 的 次 数 增加 时 ， 会 发 生 相 同 的 行为 (变化 情况 ) 。 
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7-13 随 训练 时 间 而 变化 的 误差 。z 轴 是 反 向 传播 算法 (神经 网 络 带 有 3 个 隐藏 单元 ) 运 行 
的 迭代 步 数 。 算 法 采用 的 训练 数据 见 图 79， 测 试 数据 是 目标 特征 值 未 知 的 样本 和 集 。 
2 轴 是 平方 和 误差 ( 灰 线 代表 训练 集 上 的 误差 ， 黑 线 代表 测试 集 上 的 误差 ) < 


本 节 讨 论 两 种 避免 过 拟 合 的 方法 。 第 一 种 是 显 式 地 在 模型 复杂 性 和 匹配 训练 数据 之 间 
进行 折 中 。 第 二 种 是 使 用 部 分 训练 数据 检测 过 拟 合 。 


7.5.1 最 大 后 验 概率 和 最 小 描述 长 度 


在 模型 复杂 性 和 匹配 训练 数据 之 间 进 行 折 中 的 一 种 方法 是 ， 在 给 定数 据 的 条 件 下 选择 
最 有 可 能 的 模型 。 换 句 话说 ， 选 择 最 大 化 条 件 概 率 PC(modei1data ) 的 模型 ， 称 该 模型 为 最 
大 后 验 概率 (maximum a posteriori probability) 模 型 ， 或 MAP 模型 。 

可 以 用 贝 叶 斯 规则 计算 给 定数 据 条 件 下 的 模型 (或 假设 ) 概 率 : 


_ P(data |model) X Plmodel) 
P(model | data) = —— hea (7.3) 


似 然 性 P(data |model ) 指 的 是 模型 产生 这 个 数据 集 的 概率 。 如 果 模 型 与 数据 匹配 良好 ， 则 
似 然 性 的 值 较 大 ， 反 之 亦 然 。 先 验 概率 PCmodel) MA I AE earning bias), WE T 
哪个 模型 在 先 验 意义 上 是 最 可 能 的 。 模 型 的 先 验 概率 PC(model) 对 于 学 习 偏向 选择 简单 模 
型 是 必需 的 。 通 常 ， 简 单 模型 具有 更 大 的 先 验 概率 。 分 母 P(data) 是 归 一 化 常数 ， 以 确保 


概率 和 为 1 。 

由 于 式 (7. 3) 的 分 母 与 模型 无 关 ， 所 以 当选 择 最 可 能 的 模型 的 时 候 可 以 忽略 它 。 因 此 ， 
MAP 模型 最 大 化 

P(data |model) X P(model) (7. 4) 


另 一 种 方法 是 选择 最 大 似 然 模型 (maximum likelihood model )——# XK {t P (data 
Imodel ) 的 模型 。 选 择 最 有 可 能 的 模型 的 问题 是 ， 如 果 模 型 空间 足够 丰富 ， 则 一 定 存 在 产 
生 特 定数 据 集 的 模型 ， 即 PC(data |model) = 二 1。 虽 然 先 验 地 选择 这 种 模型 的 可 能 性 非常 小 ， 
但 我 们 不 想 排除 这 种 模型 ， 因 为 它 有 可 能 是 真正 的 模型 。 选 择 最 大 似 然 模型 等 价 于 选择 在 
假设 空间 上 具有 一 致 先 验 分 布 的 最 大 后 验 概率 模型 。 

1. 决策 树 的 MAP 学 习 

为 了 理解 MAP 学 习 ， 考虑 它 是 如 何 应 用 于 学 习 决 策 树 的 。 如 果 不 存 在 输入 特征 值 相 
同 而 目标 特征 值 不 同 的 样本 ， 则 一 定 存在 完美 匹配 数据 的 决策 树 。 如 果 训 练 样本 没有 涵盖 
输入 变量 的 所 有 取 值 ， 多 棵 决策 树 将 完美 地 匹配 数据 。 然 而 ， 在 存在 噪声 的 情况 下 ， 这 些 
决策 树 都 不 可 能 是 最 好 的 模型 。 我 们 不 仅 要 比较 完美 匹配 数据 的 模型 ， 也 要 比较 那些 不 必 
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如 此 的 模型 。MAP 学 习 提 供 了 比较 这 些 模 型 的 一 种 方法 。 

假定 存在 准确 匹配 数据 的 多 棵 决策 树 。 如 果 model 代表 其 中 的 一 棵 决策 树 ， 则 
P(data |model) 二 1。 偏 好 选择 这 棵 而 非 那 棵 决策 树 取 决 于 决策 树 的 先 验 概率 ; 先 验 概率 编 
码 了 学 习 偏 置 。 由 于 简单 决策 树 具有 更 大 的 先 验 概率 ， 所 以 偏好 简单 而 非 复 杂 的 决策 树 。 

贝 叶 斯 规则 提供 了 一 种 在 简单 性 和 处 理 噪声 数据 的 能 力 之 间 进 行 折 中 的 方法 。 通 过 
在 叶子 节点 引入 概率 ， 决 策 树 能 够 处 理 噪 声 数 据 。 当 存在 噪声 的 时 候 ， 大 的 决策 树 更 适 
合 训练 数据 ， 因 为 它 能 够 考虑 训练 数据 中 的 随机 规律 (噪声 ) 。 在 决策 树 学 习 中 ， 最 大 似 
然 模 型 偏爱 更 大 的 决策 树 : 决策 树 越 复杂 ， 它 就 越 与 数据 相 匹 配 。 先 验 分 布 则 偏爱 更 小 
的 决策 树 。 当 存在 一 个 决策 树 上 的 先 验 分 布 的 时 候 ， 贝 叶 斯 规则 规定 了 如 何在 模型 复杂 
性 与 准确 性 之 间 进 行 折 中 : 给 定数 据 条 件 下 的 模型 后 验 概率 和 似 然 性 与 先 验 概率 的 乘积 
成 正比 。 

【 例 7-18) 考虑 如 图 7-1 所 示 的 数据 ， 学 习 器 预测 用 户 的 行为 。 

第 一 棵 可 能 的 决策 树 如 图 7-4 左边 所 示 ， 称 这 棵 决策 树 为 4 。 数 据 的 似 然 性 为 1， 即 
P(data | d,)=1, d, 准确 地 匹配 了 数据 。 

第 二 棵 可 能 的 决策 树 具有 如 下 特点 : 没有 内 部 节点 ， 叶 子 节 点 预测 reads 的 概率 是 


+ 这 是 在 给 定数 据 的 前 提 下 ， 没 有 内 部 节点 时 的 最 有 可 能 的 决策 树 ， 称 之 为 由。 此 时 给 


定 模型 条 件 下 数据 的 似 然 性 为 


P(data |da) = (4y x (47 = 0. 000 001 49 


第 三 棵 可 能 的 决策 树 如 图 7-4 右边 所 示 ， 它 仅仅 在 特征 Length LEAR, UTA 
上 的 概率 分 别 是 PClreads | Length =long) =0 和 P (reads | Length = short) =2. 注意 ， a 


是 在 训练 数据 中 Length=short 时 reads 的 经 验 频率 。 称 这 棵 决策 树 为 de。 此 时 给 定 模 型 
条 件 下 数据 的 似 然 性 为 


Pldata |da) = 1' X (2y x (2) ~ 0. 054 3 


第 四 棵 可 能 的 决策 树 仅 仅 在 特征 Thread 上 作 分 裂 ， 叶 子 节 点 上 的 概率 分 别 是 
P(reads|Thread = new) = a0 个 样本 中 ，Thread 二 new H. UserAction =reads 的 样本 有 


7 个) 和 Preads|Thread= JotlowUp) 一 总 。 称 这 棵 决策 树 为 di,。 此 时 给 定 模型 条 件 下 数 


据 的 似 然 性 为 
7 


P(data |d1) = EAN x (2) x EA x (2y ae 0. 000 025 


这 里 列 出 的 仅仅 是 其 中 4 棵 可 能 的 决策 树 。 哪 一 棵 最 好 取决 于 决策 树 的 先 验 概率 。 数 据 的 
似 然 性 与 决策 树 先 验 概率 的 乘积 决定 了 决策 树 的 后 验 概率 。 < 
2. 描述 长 度 
式 (7.4) 的 负 对 数 ( 以 2 为 底 ) 是 
(— log, P(data |model)) + (— log: P(model)) 
这 可 以 用 信息 论 (information theory) 来 解释 。 表 达 式 的 左边 表示 的 是 用 于 描述 数据 (给 定 
模型 的 条 件 下 ) 的 二 进 制 位 数 ， 右 边 则 表示 用 于 描述 模型 的 二 进 制 位 数 。 最 小 化 上 述 两 项 
之 和 的 模型 称 为 最 小 描述 长 度 (minimum description length，MDL) 模 型 。MDL 准则 选择 
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这 样 的 模型 ， 它 最 小 化 用 于 描述 模型 及 其 给 定 模型 下 的 数据 的 二 进 制 位 数 。 

理解 MDL 准则 的 一 种 途径 是 考虑 用 尽 可 能 简洁 的 方法 传送 数据 。 模 型 的 使 用 是 为 了 
使 传送 的 路 径 更 短 。 为 了 传送 数据 ， 首 先 必须 传送 模型 ， 然 后 才 是 传送 数据 (在 给 定 模 型 
的 条 件 下 )。 利 用 一 个 模型 传送 数据 所 需 的 二 进 制 位 ， 是 传送 模型 和 传送 数据 (在 给 定 模 型 
的 条 件 下 ) 所 需 的 二 进 制 位 之 和 。MDL 准则 选择 利用 尽量 少 的 二 进 制 位 传送 数据 的 模型 。 

由 于 对 数 函 数 是 单调 上 升 的 ， 所 以 MAP 模型 和 MDL 模型 是 等 价 的 。 选 择 具有 最 大 
后 验 概率 的 模型 和 选择 具有 最 小 描述 长 度 的 模型 是 等 价 的 。 

(Hl 7-19} 例 7-18 没有 说 明 决 策 树 的 先 验 概率 。 描 述 长 度 的 概念 为 定义 决策 树 的 先 
验 概率 提供 了 一 个 基本 原则 ， 考虑 需要 用 多 少 二 进 制 位 描述 一 棵 决策 树 ( 见 例 7-11) 。 我 们 
必须 仔细 定义 编码 ， 因 为 每 一 种 编码 都 应 描述 一 棵 决策 树 ; 反之 ， 每 一 棵 决策 树 都 应 由 一 
种 编码 描述 。 a 


7.5.2 交叉 验证 


7. 5. 1 节 所 述 方法 的 一 个 问题 是 ， 它 们 要 求 在 Agent 看 到 数据 之 前 就 拥有 关于 简洁 性 
的 知识 。 这 个 问题 可 理解 为 : 如 果 Agent 能 够 从 数据 中 作出 决定 ， 那 么 一 个 模型 需要 多 大 
的 复杂 性 。 在 学 习 Agent 没有 关于 世界 的 先 验 信 息 的 时 候 ， 这 种 方法 是 适用 的 。 

交叉 验证 (cross validation) 的 思想 是 将 训练 集 划 分 为 两 部 分 : 一 部 分 用 于 训练 ， 另 一 
部 分 用 作 验 证 集 (validation set) 。Agent 利用 新 的 训练 集训 练 模型 ， 在 验证 集 上 的 预测 用 
于 确定 采用 哪个 模型 。 

考虑 图 7-13， 训 练 误 差 随 着 决策 树 规模 的 增 大 而 减 小 。 交 叉 验 证 的 思想 是 选择 在 验证 
集 上 具有 最 小 误差 的 表示 形式 。 此 时 ， 学 习 过 程 可 以 一 直 进 行 下 去 ， 直 到 验证 上 集 上 的 误差 
开始 增 大 。 

作为 训练 数据 一 部 分 的 验证 集 和 测试 集 是 不 一 样 的 。 测 试 集 用 于 评估 学 习 算 法 的 整体 
性 能 。 将 测试 集 作 为 学 习 ( 训 练 ) 的 一 部 分 是 不 可 信 的 。 一 定 要 记 住 ， 我 们 的 目的 是 对 目前 
Agent 还 未 观察 的 样本 进行 预测 。 测 试 集 是 这 些 还 未 观察 到 的 样本 的 一 种 蔡 代 ， 因 此 它 不 
能 用 于 训练 或 验证 。 

通常 ， 我 们 想 在 尽 可 能 多 的 样本 上 做 训练 ， 因 为 这 样 可 以 获得 更 好 的 模型 。 可 是 ， 这 
样 会 使 得 验证 集 的 规模 较 小 ， 这 意味 着 该 验证 集 与 模型 的 匹配 是 不 确定 的 ; 或 者 良好 ， 或 
者 不 好 ， 仅 和 赁 运气 。 存 在 多 种 为 训练 和 验证 重复 使 用 样本 的 方法 。 

k 折 交 叉 验 证 就 是 一 种 确定 最 优 模 型 复杂 性 (例如 决策 树 的 深度 、 神 经 网 络 中 的 隐藏 
节点 数 等 ) 的 方法 。k 折 交 叉 验 证 (&A-fold cross validation) 将 训练 集 划 分 成 大 个 集合 。 对 于 
每 一 种 模型 的 复杂 性 ， 学 习 器 训练 上 次 ， 每 次 使 用 其 中 的 一 个 集合 作为 验证 集 ， 其 余 的 用 
作 训 练 。 然 后 它 选择 验证 集 上 的 平均 误差 (& 次 运行 的 平均 值 ) 最 小 的 模型 复杂 性 。 它 能 够 
返回 具有 这 种 复杂 性 (在 所 有 的 数据 上 训练 ) 的 模型 。 


7.6 基于 案例 的 推理 


上 述 方法 设法 找到 用 于 未 来 预测 的 数据 的 一 个 紧 致 表示 。 在 基于 案例 的 推理 (case- 
based reasoning) 中， 我 们 存储 和 访问 训练 样本 ( 即 案例 ) 以 解决 新 问题 。 为 了 获得 新 样本 
的 预测 值 ， 用 那些 与 新 样本 类 似 或 相近 的 案例 预测 新 样本 的 目标 特征 值 。 这 是 学 习 问 题 的 
一 种 极端 情形 ， 与 决策 树 和 神经 网 络 不 同 ， 该 方法 的 离线 工作 量 相 对 较 小 ， 几 乎 所 有 的 工 


323 


324 


325 


214 PERD 学 习 与 规划 


作 都 是 在 查询 时 完成 的 。 

基于 案例 的 推理 可 用 于 分 类 与 回归 。 它 也 适用 于 复杂 的 案例 ， 例 如 ， 在 法 律 案件 中 ， 
案例 指 复杂 的 法 律 裁决 ;在 规划 中 ， 案 例 指 复杂 问题 的 历史 解决 方案 。 

如 果 案 例 比 较 简 单 ， 采 用 一 种 称 为 k 近邻 (&-rnearest neighbor) 的 算法 效果 良好 。 给 定 
一 个 新 样本 ， 与 它 有 相近 输入 特征 值 的 个 训练 样本 用 于 预测 新 样本 的 目标 特征 值 。 预 测 
值 可 以 是 个 训练 样本 目标 值 的 模 数 、 平 均值 或 某 种 插值 ， 距 离 近 的 样本 可 能 比 距 离 远 的 
样本 权重 更 大 。 

为 了 采用 这 种 方法 ， 需 要 一 种 估量 样本 之 间 相 似 性 的 距离 度量 。 首 先 为 每 个 特征 的 值 
域 定义 一 个 度量 ,使 得 特征 值 转化 为 可 以 比较 大 小 的 数值 。 假 定 val (e，X;) 是 特征 X E 
样本 e 上 的 值 的 数值 表示 ， Mi (valle; , X;)— valles X;)) 是 样本 ej 和 ez 在 特征 ;所 定义 
的 维度 上 的 差异 。 欧 氏 距 离 (Euclidean distance) 指 的 是 所 有 维度 上 的 差异 的 平方 和 的 平方 
根 ， 它 可 用 作 两 个 样本 之 间 的 距离 度量 。 一 个 重要 的 问题 是 不 同 维度 的 相对 比例 大 小 ; 增 
加 某 个 维度 的 比例 意味 着 提高 了 该 特征 的 重要 性 。 令 w 是 一 个 非 负 实 值 参数 ， 它 表示 特 
征 X; 的 重要 性 ， 则 样本 e Me 之 间 的 距离 可 定义 为 


Du X Calle: + Xi) — wal Cen X,))? 


特征 的 权重 可 以 通过 输入 提供 。 此 外 ， 学 习 这 些 权 重 也 是 可 能 的 。 学 习 Agent 设法 找到 最 
小 化 误差 的 参数 设置 ; 误差 的 计算 通过 预测 训练 集中 的 每 一 个 样本 (训练 集中 的 其 他 样本 
用 作 训 练 ) 来 实现 ， 称 为 留 一 法 交叉 验证 误差 (leave-one-out cross-validation) 。 

【 例 7-20) 考虑 在 如 图 7-1 所 示 的 数据 上 使 用 基于 案例 的 推理 。 不 是 将 数据 转化 为 诸 
如 在 决策 树 或 神经 网 络 学 习 中 的 间接 表示 ， 基 于 案例 的 推理 直接 利用 样本 预测 新 样本 中 用 
户 的 行为 。 

假定 学 习 Agent 想 分 类 样本 ex ， 该 样本 的 Author, Thread, Length 和 WhereRead 
特征 的 值 分 别 是 unknown, followUp, short 和 home。 首 先 ， 学 习 器 设法 找到 类 似 的 案 
例 。 因 为 存在 一 个 完全 匹配 的 样本 ea ， 所 以 预测 用 户 将 采用 和 桩 本 ea 相同 的 行为 ， 即 忽 
略 该 文章 (UserAction 王 ips) 。 此 外 ， 它 也 可 能 包含 其 他 相近 的 样本 。 

考虑 分 类 样本 ee ， 该 样本 的 Author, Thread, Length W WhereRead 特征 的 值 分 别 
是 unknown, new, long 和 orR 。 此 时 并 不 存在 完全 匹配 的 样本 ， 因 此 考虑 相近 匹配 。 
ew 和 e,。、es、ews 在 特征 Author, Thread 和 WhereRead 上 的 值 相同 ;和 ee ev TERETE 
Thread, Length W WhereRead 上 的 值 相 同 ; F e, 在 特征 Author, Length W WhereRead 
上 的 值 相同 。es 、es 、e1s 预 测 用 户 的 行为 是 Reads， 其 他 样本 则 预测 为 Skips。 预 测 值 究竟 
应 该 是 什么 ? 决策 树 认 为 特征 Length 对 于 预测 是 最 重要 的 ， 因 此 e;、es 、eis 应 该 被 忽略 。 
对 于 sigmoid 线性 学 习 算 法 ， 采 用 例 7-10 中 的 参数 值 ， 预 测 的 结果 也 是 Skips。 基 于 案例 
的 推理 算法 预测 用 户 的 行为 之 前 必须 确定 各 个 维度 的 相对 重要 性 。 < 

基于 案例 的 推理 需要 访问 相关 案例 。ka 树 (kd-tree) 是 对 训练 样本 建立 索引 的 一 种 方 
法 ， 目 的 是 快速 找到 与 给 定 样 本 相近 的 训练 样本 。 和 决策 树 类 似 ，kd 树 在 输入 特征 上 作 
分 裂 ， 但 其 叶子 节点 是 训练 样本 的 子 集 。 由 样本 集 建立 一 棵 kd 树 ， 学 习 器 首先 设法 找到 
一 个 输入 特征 ， 将 样本 集 划 分 为 规模 大 致 相同 的 多 个 子 集 ; 然后 分 别 在 多 个 子 集 上 建立 
kd 树 。 这 个 划分 过 程 一 直 进 行 ， 直 到 叶子 节点 上 的 样本 不 再 变化 为 止 。 和 决策 树 一 样 ， 
新 样本 可 以 顺 着 树 向 下 过 滤 ; 正确 的 匹配 将 在 叶子 节点 上 找到 。 然 而 ，Aa 树叶 子 节点 上 
的 样本 可 能 和 和 欲 分 类 的 样本 相去 甚 远 ; 它们 虽然 和 顺 着 树枝 向 下 过 滤 的 值 相 匹 配 ， 但 有 可 


dle ,es) = 
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能 与 其 他 特征 的 值 不 一 致 。 这 种 树 也 可 以 用 于 搜索 那些 与 测试 样本 仅 有 一 个 特征 不 相同 的 
样本 。 见 习题 7. 16 。 

基于 案例 的 推理 也 适用 于 复杂 的 案例 ， 例 如 法 律 案件 和 规划 问题 的 历史 解决 方案 。 在 
这 种 情况 下 ， 需 要 仔细 挑选 和 编辑 案例 ， 以 使 得 这 些 案例 发 挥 作 用 。 基 于 案例 的 推理 可 以 
看 成 是 下 面 4 个 任务 的 一 个 循环 : 

检索 : 给 定 一 个 新 案例 ， 从 案例 库 中 检索 类 似 的 案例 。 

重用 : 改编 检索 到 的 案例 以 适合 这 个 新 案例 。 

修正 : 评估 答案 并 根据 其 效果 修改 答案 。 

保存 : 决定 是 否 将 这 个 新 案例 保留 在 案例 库 中 。 

修正 可 涉及 其 他 的 一 些 推理 技术 ， 例 如 ， 使 用 推荐 的 答案 作为 搜索 另 一 个 答案 的 初始 
值 ， 或 者 在 交互 式 系统 中 人 们 对 案例 进行 改编 。 最 后 保存 这 个 新 案例 和 找到 的 答案 。 

【 例 7-21〗 用 户 请 求解 决 问题 的 帮助 平台 是 基于 案例 的 推理 系统 的 一 个 常见 例子 。 例 
如 ， 诊断 助手 可 利用 基于 案例 的 推理 帮助 用 户 在 自己 的 计算 机 系统 上 诊断 问题 。 当 用 户 给 
出 问题 的 描述 后 ， 就 从 案例 库 中 检索 出 最 相近 的 案例 。 诊 断 助手 能 够 推荐 一 些 案例 给 用 
户 ， 并 根据 用 户 的 特殊 要 求 改编 每 个 案例 。 改 变 推荐 是 改编 的 一 个 实例 ， 这 基于 下 述 问 题 
的 考虑 : 用 户 拥有 什么 软件 ， 他 们 采用 什么 方法 连接 因特网 ， 采 用 的 打印 机 是 什么 牌子 
的 ， 等 等 。 如 果 其 中 的 一 个 案例 可 行 ， 那 么 就 将 它 记 录 在 案例 库 中 ， 以 使 得 当 别 的 用 户 询 
问 类 似 的 问题 时 能 突出 该 案例 的 重要 性 。 如 果 没 有 一 个 案例 是 可 行 的 ， 那 么 需要 采用 其 他 
的 方法 求解 问题 ， 例 如 改编 其 他 案例 或 由 人 帮助 诊断 问题 。 当 问题 最 终 确 定 后 ， 将 相应 的 
案例 加 入 案例 库 中 。 < 


7.7 改进 假设 空间 的 学 习 


到 目前 为 止 ， 学 习 要 么 是 选择 最 优 的 表示 形式 (例如 ， 最 优 的 决策 树 或 神经 网 络 中 的 最 
优 参数 值 ) ， 要 么 是 依据 历史 案例 预测 新 案例 的 目标 特征 值 。 本 节 考 虑 一 种 不 同 的 学 习 概念 ， 
即 通过 勾画 与 样本 一 致 的 假设 空间 进行 学 习 。 目 标 不 是 选择 一 个 假设 ， 而 是 寻找 所 有 一 致 的 
假设 。 这 里 将 阐明 学 习 偏 置 的 作用 ， 并 给 出 对 学 习 算 法 进行 理论 分 析 的 一 个 机 制 。 

我 们 先 给 出 三 个 假定 条 件 : 

。 只 有 一 个 布尔 型 的 目标 特征 Y。 这 并 非 完 全 限定 于 分 类 ， 因 为 可 以 利用 指示 变量 

将 任意 的 离散 型 特征 转化 为 布尔 型 特征 。 

。 假设 给 出 确定 性 的 预测 ， 即 对 每 个 样本 给 出 * 真 或“ 假 ” 的 预测 ， 而 非 概率 预测 。 

。 数据 中 不 存在 噪声 。 

这 些 假定 条 件 使 得 用 命题 的 形式 定义 一 个 假设 成 为 可 能 ， 其 中 原始 命题 指 的 是 输入 特 
征 的 赋值 。 

【 例 7-22〗 如 图 7-4 所 示 的 决策 树 可 以 看 成 用 如 下 命题 定义 的 reads 表示 : 

poal(e,Reads) = wil(e,Short) A (walle, New) V ul(e,Known)) 

在 本 节 的 其 余部 分 ， 我 们 采用 一 种 更 简洁 的 书写 形式 : 

reads short A (new V known) <a 

我 们 的 目标 是 设法 找到 一 个 基于 输入 特征 的 命题 ， 用 以 正确 地 分 类 样本 。 

【 例 7-23〗 考虑 交易 Agent 试图 基于 给 定 的 关键 词 推断 用 户 将 阅读 哪些 书 或 文章 的 问 
题 。 假 定 学 习 Agent 拥有 下 列 数 据 : 
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[AF | e A p O e | e] 
a true false false true 
true false false false 
false true false false 
false 
false 








目标 是 学 习 用 户 将 阅读 哪些 文章 。 

在 这 个 例子 中 ， 目 标 特 征 是 reads， 学 习 的 目标 是 找到 如 下 形式 的 命题 : 

reads**crime MN (7 academic V 7 music) 

这 个 命题 可 以 用 来 分 类 训练 样本 以 及 未 来 的 样本 .。 A 

假设 空间 学 习 假定 具有 下 列 集 合 : 

。 实例 空间 (instance space)IJ， 指 的 是 所 有 可 能 样本 的 集合 。 

。 假设 空间 (hypothesis space)H， 指 的 是 输入 特征 上 的 布尔 函数 集 。 

。 ECI 是 训练 样本 (training example) 集 。 训 练 样本 中 的 输入 特征 值 和 目标 特征 值 均 

为 已 知 。 

mMRACHM ICT. WAR h MWEE i 上 的 目标 特征 Y 的 值 。 

【 例 7-24) 在 例 7-23 中 ,I 是 32(25 一 32) 个 样本 的 集合 ， 每 一 个 样本 对 应 特征 取 值 的 
一 种 组 合 。 

假设 空间 7t 可 以 是 输入 特征 的 所 有 布尔 组 合 ， 或 是 施加 了 某 些 限制 的 组 合 ( 例 如 用 少 
于 三 个 特征 定义 的 合 取 式 或 命题 ) 。 

训练 样本 E Æla az, az, as, as)» HERRIE Reaas。 由 于 在 训练 样本 中 指定 了 
目标 特征 的 值 ， 且 学 习 器 将 对 未 观察 到 的 样本 进行 预测 ， 所 以 学 习 器 需要 一 个 学 习 偏 置 。 
在 假设 空间 学 习 中 ， 偏 置 由 假设 空间 规定 。 4 

MRVeCE, h 准确 地 预测 了 e 的 目标 特征 值 ， 则 称 假 设 h 和 训练 样本 集 E 是 一 致 的 
(consistent)。 换 名 话说，h(e) 二 vall(e，Y)， 即 预测 值 和 真正 值 对 于 每 一 个 样本 而 言 都 是 
相同 的 。 我 们 的 目标 是 找到 与 训练 样本 一 致 的 HH 的 子 集 或 其 中 的 一 个 元 素 。 

【 例 7-25) 考虑 如 例 7-23 所 示 的 数据 ， 并 假定 XH 是 文字 合 取 的 集合 。 与 a1) 一 致 的 一 
个 好 中 的 假设 是 academic 人 music。 这 意味 着 用 户 阅 读 文章 当 且 仅 当 academic A music 
为 真 。 这 个 假设 并 不 是 我 们 想 要 的 ， 因 为 它 和 {a; ，az} 不 一 致 。 a 


7.7.1 变型 空间 学 习 


与 枚 举 所 有 的 假设 不 同 ， 可 以 通过 在 假设 空间 上 规定 某 些 结构 而 高 效 地 找到 与 样本 一 
RNA FAK. 

如 果 假 设 hs HAT hi, WA A. 相 比 ，hi 是 一 个 更 一 般 的 假设 ; 换 句 话说 , SA 相 
IK, ho 是 一 个 更 特殊 的 假设 。 与 自身 相 比 ， 任 意 假设 均 为 更 一 般 的 假设 和 更 特殊 的 假设 
( 即 两 者 同时 成 立 )。 

【 例 7-26] 假设 academic A music 比 music Fil academic WER Yk, AIE, music th 
sacademic \ music 更 一 般 。 最 一 般 的 假设 是 true， 最 特殊 的 假设 是 false, | 

Wiese one 更 一 般 ” 的 关系 在 假设 空间 上 形成 了 一 个 偏 序 关系 。 变 型 空间 算法 利用 这 种 偏 
序 关系 去 搜索 与 训练 样本 一 致 的 假设 。 

给 定 假设 空间 1 和 训练 样本 集 E, 3S i) (version space) 指 的 是 与 训练 样本 一 致 的 
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HFK. 

变型 空间 的 一 般 边 界 (general boundary)G 指 的 是 变型 空间 中 最 一 般 的 假设 的 集合 ( 即 
没有 其 他 的 假设 比 这 些 假 设 更 一 般 )。 变 型 空间 的 特殊 边界 (specific boundary) S 指 的 是 变 
型 空间 中 最 特殊 的 假设 的 集合 。 

一 般 边界 和 特殊 边界 的 概念 是 有 用 的 ， 因 为 它们 完全 确定 了 变型 空间 : 

命题 7.2 给 定 假设 空间 和 和 训练 样本 集 琅 ， 变 型 空间 可 以 由 它 的 一 般 边 界 和 特殊 边 
界 导 出 。 特 别 的 ， 变 型 空间 是 假设 hh 的 集合 (hEH)， 这 些 假设 满足 : HUES 中 的 某 个 元 素 
更 一 般 ， 比 G 中 的 某 个 元 素 更 特殊 。 

1. 候选 删除 算法 

给 定 假设 空间 及 和 训练 样本 集 巨 ， 候 选 删 除 算法 (candidate elimination algorithm) 增 量 
地 构建 变型 空间 。 在 该 算法 中 ， 样 本 是 一 个 一 个 加 入 的 : 每 加 入 一 个 样本 ， 都 可 能 因 删 除 
与 样本 不 一 致 的 假设 而 缩减 变型 空间 。 对 于 每 一 个 新 样本 ， 候 选 删除 算法 通过 更 新 一 般 边 
界 和 特殊 边界 来 达到 目的 。 算 法 详情 见 图 7-14。 


1: procedure CandidateEliminationLearner(X, Y, E, H) 
Inputs 
X; 输入 特征 的 集合 ， X={X1, +e, Xu} 
Y: 目标 特征 
下 :用 于 学 习 的 样本 集 
H: 假设 空间 
Output 
一 般 边 界 GOH 
H EBRAR SSH 
Local 
G: XH 中 的 假设 集 g 
S: KH 中 的 假设 集 


Let G= {true}, S= { false}; 
for 每 一 个 e€EE do 
if e 是 一 个 正 类 样本 then 
删除 G 中 将 e 分 为 负 类 的 元 素 ; 
: 删除 S 中 将 e 分 为 负 类 的 元 素 5， 并 用 一 个 将 e 分 为 正 类 的 新 元 素 (s 的 最 小 推广 ， 但 一 般 性 不 如 GP 
的 某 个 成 员 ) 替 换 它 ; 
删除 S 中 的 非 最 特殊 假设 ; 


else 
删除 S 中 将 e 分 为 正 类 的 元 素 ; 
: WRG 中 将 e 分 为 正 类 的 元 素 g， 并 用 一 个 将 e 分 为 负 类 的 新 元 素 (g 的 最 小 特 化 ， 但 比 S 中 的 某 个 成 
员 更 一 般 ) 替 换 它 . . 
删除 G 中 的 非 最 一 般 假设 





7-14 候选 删除 算法 


【 例 7-27〗 考虑 候选 删除 算法 是 如 何 处 理 例 7-23 的 数据 的 ， 其 中 假设 空间 及 是 文字 合 
取 的 集合 。 

在 观察 到 样本 之 前 ，G = {true} (用 户 一 定 阅 读 ) 和 So 二 {false} (用 户 一 定 不 阅读 )。 
THER, true 代表 空 合 取 ，Jfalse 代表 原子 公式 与 其 否定 的 合 取 。 

当 观 察 到 第 一 个 样本 a, 之 后 ,Gi 二 {true} 且 

S, = {crime A macademic A ~ local A music} 
此 时 ， 最 一 般 的 假设 是 用 户 一 定 阅 读 ， 最 特殊 的 假设 是 只 有 当 输 入 特征 值 和 样本 :a 完全 
一 致 时 用 户 才 阅 读 。 
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当 观 察 到 第 二 个 样本 之 后 ，G; = {true} H. 

S: = {crime A ~ academic 人 ~ local} 
此 时 ， 由 于 a 和 a, 在 特征 music 上 不 一 致 ， 所 以 得 出 特征 music 无 用 的 结论 。 

当 观 察 到 第 三 个 样本 之 后 ， 一 般 边 界 变 成 

G; = {crime , > academic} 
H S: 一 S: 。 此 时 存在 两 个 最 一 般 的 假设 ， 即 特征 crime J true 时 用 户 一 定 阅 读 和 特征 
academic FY false 时 用 户 一 定 阅 读 。 

当 观 察 到 第 四 个 样本 之 后 ， 

G, = {crime, ` academic 人 7 local} 
HS,=S,. 

， 当 所 有 的 5 个 样本 均 考 察 完 毕 之 后 ， 我 们 有 

G; = {crime} 

S; = (crime 人 ` local} 
此 时 ， 在 变型 空间 中 仅 存 在 两 个 假设 。 它 们 之 间 仅 有 的 区 别 在 于 : 当 一 个 样本 的 crime A local 
为 true 时 ， 它 们 的 预测 不 一 样 。 如 果 目 标 概 念 可 以 表示 成 合 取 的 形式 ， 仅 当 一 个 样本 的 crime 作 
local 为 true 时 才 会 改变 G 或 S。 这 个 变型 空间 可 以 对 所 有 其 他 的 样本 进行 预测 。 a 

2. 变型 空间 学 习 的 偏 置 

回想 一 下 ， 对 于 任意 学 习 算 法 而 言 ， 偏 置 对 于 获得 泛 化 能 力 是 必需 的 。 例 7-27 中 必 
定 存在 偏 置 ， 因 为 在 仅 观察 到 16 个 输入 变量 的 可 能 赋值 中 的 5 个 之 后 ，Agent 就 能 够 对 
还 未 观察 到 的 样本 进行 预测 。 

变型 空间 学 习 中 的 偏 置 称 为 语言 偏 置 (language bias) RIRA iA B (restriction bias), A 
为 偏 置 是 通过 限制 允许 的 假设 而 获得 的 。 例 如 ， 一 个 具有 特征 crime 为 false, music 为 
true 的 新 样本 将 被 分 类 为 false (用 户 将 不 阅读 文章 )， 即 使 以 前 并 没 观察 到 这 样 的 样本 。 
假设 必须 是 文字 的 合 取 这 种 限制 对 于 预测 是 足够 的 。 

语言 偏 置 与 决策 树 学 习 涉 及 的 偏 置 是 不 同 的 。 决 策 树 可 以 表示 任意 布尔 函数 。 决 策 树 
学 习 涉 及 偏好 偏 置 (preference bias)， 因 为 它 更 偏好 一 些 布尔 函数 : 与 大 的 决策 树 相 比 ， 
它 更 偏好 小 的 决策 树 。 自 顶 向 下 建立 单一 决策 树 的 决策 树 学 习 也 涉及 搜索 偏 置 (search 
bias)， 因 为 返回 的 决策 树 依 赖 于 所 使 用 的 搜索 策略 。 

由 于 除了 涉及 选择 假设 空间 XH 时 的 语言 偏 置 外 ， 候 选 删除 算法 没有 涉及 其 他 的 任何 偏 
置 ， 因 此 有 时 它 被 认为 是 一 种 无 偏 置 的 学 习 算 法 。 将 变型 空间 恶化 成 空 集 是 不 难 的， 例如 
使 得 存在 特征 crime 为 false, music 为 trxe， 且 用 户 阅 读 文章 的 样本 。 这 意味 着 目标 概念 
不 在 1t 之 中 。 变 型 空间 学 习 是非 抗 噪 的 ， 仅 仅 一 个 误 分 的 样本 就 能 破坏 整个 系统 。 

无 偏 置 (bias-free) 的 假设 空间 指 的 是 由 所 有 的 布尔 函数 组 成 。 在 这 种 情形 下 ，G 总 
是 包含 这 样 的 一 个 概念 : 观察 到 了 所 有 的 负 类 样本 ， 其 他 的 均 是 正 类 样本 。 类 似 的 ，S 包 
含 所 有 未 观察 到 的 样本 均 属 负 类 的 概念 。 这 种 变型 空间 对 于 未 观察 到 的 样本 不 能 作出 任何 
结论 ， 因 此 它 没有 泛 化 能 力 。 如 果 没 有 语言 偏 置 或 偏好 偏 置 ， 那 么 就 没有 泛 化 能 力 ， 也 就 
无 所 谓 学 习 了 。 


7.7.2 可 能 近似 正确 学 习 


我 们 已 经 看 到 了 一 些 不 同 的 学 习 算 法 。 本 节 将 讨论 一 些 学 习 理 论 方面 的 问题 (属于 计 
算 学 习 理 论 (computational learning theory) 领 域 ) 。 
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计算 学 习 理 论 致力 于 回答 的 一 些 相 关 问 题 如 下 : 

。 增加 样本 能 保证 学 习 器 收敛 到 正确 的 假设 吗 ? 

。 识别 一 个 概念 需要 多 人 少 样本 ? 

。 识别 一 个 概念 需要 多 少 计算 量 ? 

一 般 的 ， 第 一 个 问题 的 答案 是 否定 的 ， 除 非 能 保证 样本 总 会 最 终 排除 不 正确 的 假设 。 
可 以 通过 选择 一 些 对 于 判别 假设 正确 与 否 没 有 帮助 的 样本 来 误导 学 习 器 ; 因此 ， 如 果 不 能 
排除 这 种 情况 ， 学 习 器 不 能 保证 一 定 找到 一 致 的 假设 。 然 而 ， 给 定 一 些 随机 选择 的 样本 ， 
总 能 选择 一 致 假设 的 学 习 器 能 获得 与 正确 概念 任意 逼近 的 解 。 这 需要 定义 通 近 的 概念 和 说 
明 什么 是 随机 选择 的 样本 。 

考虑 能 选择 与 所 有 训练 样本 一 致 假设 的 学 习 算 法 ， 并 假定 存在 一 个 在 所 有 可 能 样本 上 
的 概率 分 布 ， 训 练 样本 和 测试 样本 均 服 从 该 分 布 。 这 个 概率 分 布 不 一 定 是 已 知 的 。 我 们 将 
证 明 一 个 对 所 有 分 布 都 成 立 的 结果 。 

(Ri hE HAIR GW error(h)) MAH I N—PRi, AG) Avali, YH 
概率 : 

error (h) = PG) 4 wl GY |i Ee D 
Hp AG) Al wal(i， 了 ) 分 别 是 目标 变量 Y 在 样本 i 上 的 预测 值 和 真实 值 。 工 代表 实例 空间 ， 
即 所 有 可 能 样本 的 集合 。 由 于 Agent 通常 并 不 知道 或 val(i, Y)， 因 此 也 不 知道 特定 假 
设 的 误差 。 

给 定 >00, WE error(h) 三 e， 则 称 假 设 h 是 近似 正确 (approximately correct) 的 。 

我 们 做 以 下 假设 。 

假设 7.3 训练 样本 和 测试 样本 是 独立 地 从 相同 的 概率 分 布 中 选择 的 。 

样本 不 能 识别 与 概念 相去 其 远 的 假设 依然 是 可 能 的 (虽然 可 能 性 很 小 ) 。 能 选择 一 个 与 
训练 样本 一 致 的 假设 的 学 习 器 ， 如 果 对 于 一 个 任意 的 实数 8(0 过 8s 委 1) ， 算 法 不 是 近似 正确 
的 概率 至 多 是 8， 则 该 学 习 器 是 可 能 近似 正确 (probably approximately correct) 的 。 换 句 话 
说 ， 获 得 的 假设 至 少 是 1 一 6 概率 近似 正确 的 。 

在 假设 7. 3 下 ， 对 于 任意 的 es 和 39， 我 们 可 以 保证 算法 (返回 一 致 假设 的 算法 ) 能 至 少 
在 1 一 6 概率 下 找到 误差 小 于 e 的 假设 。 而 且 这 个 结果 不 依赖 于 数据 的 概率 分 布 。 

给 定 s 盖 0 和 >0， 将 假设 空间 7t 分 为 两 部 分 : 

Hy = {h © Heerror(h) Se} 

Hı = {h E€ Heerror(h) >e} 
目标 是 保证 学 习 器 没有 选择 Tt 中 的 假设 的 概率 大 于 5。 

B hkEH ， 和 那么 

P( 对 于 一 个 样本 而 言 ,h 是 错误 的 ) 之 Ee 

P( 对 于 一 个 样本 而 言 ,h 是 正确 的 ) 之 1 一 & 

P( 对 于 m 个 样本 而 言 ,hh 是 正确 的 ) 委 (1 一 ee)" 


因此 ， 
PH 包含 一 个 对 于 mx 个 样本 而 言 是 正确 的 假设 ) 
<|m|a-e2* 
<|H|Q-e)” 
< ithe~ 


Hp All FA RERO) Se, OXeX<1, 
FE, MB|Hle "<d. 我 们 就 能 保证 Hi 没有 包含 一 个 对 于 mo FRAT BER 


333 


334 


220 第 三 部 分 “学习 与 规划 


假设 的 概率 大 于 8。 因 此 ，H, 包含 了 所 有 正确 的 假设 的 概率 大 于 1 一 6。 
Xi m RE, A 


m>>(m|H] +In=) 


于 是 ， 我们 得 到 了 如 下 的 命题 。 
命题 7.4 如 果 一 个 假设 至 少 与 
+ (1n| | +n) 


个 训练 样本 一 致 ， 那 么 它 至 少 以 1 一 HM#RAT ec. 

保证 上 述 误差 界 的 样本 的 数目 称 为 样本 复杂 度 (example complexity), GÆ e, è 和 假 
设 空间 大 小 的 函数 。 

【 例 7-28] 给 定 假设 空间 KH 是 nn 个 布尔 变量 上 的 文字 的 合 取 。 此 时 ，|XH1==3" 十 1， 
这 是 因为 对 每 一 个 合 取 来 说 ， 其 中 每 个 变量 的 状态 是 下 列 三 种 情况 之 一 : 1) 变 量 本 身 ; 2) 
变量 的 否定 ; 3) 变 量 未 出 现 。 加 1 是 考虑 了 取 值 为 false 的 情形 ， 即 任意 原子 与 其 否定 的 


合 取 。 因此 ， 样 本 复杂 度 是 荆 (nln3 十 ln ty, Een, tH in 二 的 多 项 式 组 合 。 


假定 有 30 个 布尔 变量 ， 我 们 想 至 少 以 99% 的 概率 保证 至 多 5% 的 误差 ， 则 e=1/20, 
6 二 1/100 和 7 二 30。 这 个 界 表明 :如 果 找 到 与 20X (30In3+1n100) +752 个 样本 一 致 的 假 
设 ， 则 我 们 可 以 保证 上 述 性 能 。 与 可 能 的 样本 数目 (22 王 1073 741 824) 和 假设 数目 (3” 十 1 
=205 891 132 094 650) 相 比 ， 样 本 复杂 度 (752 个 样本 ) 少 得 多 。 a 

(6) 7-29] 如 果 假 设 空间 7 是 所 有 ?个 变量 上 的 布尔 函数 的 集合 ， 则 17t1 王 22” ， 因 此 
我 们 需要 二 ( 2"ln2 十 jn Z) AEE, EARE n HREM. 


假定 有 30 个 布尔 变量 ， 我 们 想 至 少 以 99%% 的 概率 保证 至 多 5%% 的 误差 ， 则 e=1/20, 
5 二 1/100 和 ?一 30。 这 个 界 表明 : 如 果 找 到 与 20X (2° 1n3+1n100) 14 885 222 452 个 样 
本 一 致 的 假设 ， 则 我 们 可 以 保证 上 述 性 能 。 4 

考虑 本 节 开 始 所 提出 的 第 三 个 问题 ， 即 学 习 器 能 够 以 多 快 的 速度 找到 可 能 近似 正确 的 
假设 ? 首先 ， 如 果 样 本 复杂 度 是 参数 大 小 (例如 上 述 的 2) 的 指数 函数 ， 则 计算 复杂 度 是 指 
数 级 的 ; 这 是 因为 算法 必须 至 少 考虑 每 个 样本 一 次 。 为 了 使 一 个 算法 具有 多 项 式 的 时 间 复 
杂 度 ， 我 们 必须 找到 一 个 具有 多 项 式样 本 复杂 度 的 假设 空间 ， 并 且 该 算法 处 理 每 个 样本 的 
时 间 复 杂 度 也 是 多 项 式 的 。 


7.8 MHRS 


除了 选择 最 可 能 的 模型 或 者 勾画 所 有 与 训练 数据 一 致 的 模型 集合 之 外 ， 另 一 种 方法 是 
在 给 定 训练 样本 的 条 件 下 计算 每 个 模型 的 后 验 概率 。 

贝 叶 斯 学 习 (Bayesian learning) 的 思想 是 : 基于 输入 特征 和 所 有 训练 样本 ， 计 算 新 样 
本 目标 特征 的 条 件 后 验 概率 。 

假定 一 个 新 样本 的 输入 特征 X 王 zx、 目标 特征 是 Y， 目 标 是 计算 PCY | X=zAe). 其 
中 e 是 训练 样本 的 集合 。 这 是 给 定 特定 输入 和 训练 样本 的 条 件 下 目标 变量 的 概率 分 布 。 模 
型 被 认为 是 样本 的 生成 器 。 令 M 表示 不 相交 且 覆 盖 了 全 集 的 模型 的 集合 ， 则 可 通过 样本 
和 链 式 规 则 推理 得 到 : 

PCY|zAe)= PY Am|z Ne = DPY |m Ax eXP(m|z Ae) 

= DP(Y|m A z) X P(mle) 


mEM 
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其 中 ， 前 面 的 两 个 等 式 是 概率 论 中 的 定理 ,最 后 的 等 式 基 于 两 个 假定 : 模型 包含 所 有 关于 
样本 (它们 对 于 特定 的 预测 是 必需 的 ) 的 信息 ( 即 PCY |m 和 zxAe)==P(Y | mAx)); 模型 不 
会 因为 新 样本 输入 的 改变 而 改变 ( 即 PCm|zx Ae)= 二 PCm|e))。 这 个 公式 表明 我 们 调和 了 所 
有 模型 的 预测 值 ， 其 中 每 个 模型 用 其 后 验 概率 (给 定 样 本 的 条 件 下 ) 进 行 了 加 权 。 
可 以 应 用 贝 叶 斯 规则 计算 P On |e): 
P(im |e) = P(e|m) X Pim) 


P(e) 

因此 ， 每 个 模型 的 权重 取决 于 该 模型 预测 数据 的 性 能 ( 似 然 性 ) 和 它 的 先 验 概率 。 分 母 P(e) 
是 一 个 归 一 化 常量 ， 用 以 确保 模型 的 先 验 概率 之 和 为 1|。 当 存在 许多 模型 的 时 候 ， 计算 
P(e) 可 能 非常 困难 。 

给 定 样 本 集 {e!，…，e,}， 如 果 对 于 所 有 的 i 和 jj， 样本 e 和 e 由 模型 m 独立 给 出 ， 
即 Ple; Ae|m) 二 Ple;|m)XPle;|m)， 则 称 样本 集 是 独立 同 分 布 (independent and identi- 
cally distributed) 的 (分 布 由 模型 m 给 出 )。 我 们 通常 假定 样本 集 是 独立 同 分 布 的 。 

S e 代表 样本 集 {e, ，…，e:}， 即 e 是 e; 的 合 取 ， 因 为 所 有 已 观察 到 的 样本 均 为 事实 。 
样本 是 独立 同 分 布 的 ， 意味 着 


k 
P(e|m) = [I Pee |m) 
im) 


除了 在 参数 取 值 上 不 同 以 外 ， 模 型 集 还 可 能 包含 结构 不 同 的 模型 。 贝 叶 斯 学 习 的 一 种 
技巧 是 显 式 地 表达 模型 的 参数 ， 并 在 这 些 参数 上 确定 分 布 。 

【 例 7-30) 考虑 不 确定 情形 下 的 最 简单 的 学 习 任 务 。 假 定 存在 一 个 布尔 随机 变量 了， 
样本 的 输出 为 a 或 "&。 目 标 是 给 定 一 些 样本 学 习 Y 上 的 概率 分 布 。 

存在 一 个 决定 模型 集 的 参数 $5， 假定 $5 代表 Y=true 的 概率 。 我 们 把 这 个 参数 视 为 在 
区 间 [0，1] 上 的 实 值 随机 变量 。 因 此 ,，P(al$)==$ 和 P(-a|$)==1 一 $。 

假定 Agent 没有 关于 布尔 变量 Y 的 概率 的 先 验 信 息 和 训练 样本 之 外 的 知识 。 这 种 “无 
知 ” 可 建 模 为 : 将 变量 $ 的 先 验 概率 分 布设 为 区 间 [0，1] 上 的 均匀 分 布 ， 见 图 7-15 中 标记 
为 no =0, 2, =0 的 概率 密度 函数 。 


3.5 





图 7-15 基于 不 同样 本 大 小 的 beta 分 布 
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我 们 可 以 通过 给 定 一 些 样 本 来 更 新 5 的 概率 分 布 。 假 定 样 本 (通过 多 次 独立 的 实验 而 
获得 ) 是 输出 结果 的 一 个 特定 序列 ， 其 中 输出 结果 由 no TS Y 取 false 的 样本 和 ni 个 Y 取 
true 的 样本 组 成 。 

给 定 训 练 样本 ，#$ 的 后 验 概率 分 布 可 以 由 贝 叶 斯 规则 导出 。 令 e 是 观察 (ni 次 Y= 
true 和 no W Y= false) 的 特定 序列 ， 则 由 贝 叶 斯 规则 可 得 : 


P(e|$) x P) 
P(e) 


其 中 分 母 是 一 个 归 一 化 常量 ， 用 以 确保 图 7-15 曲线 下 方 的 面积 为 1。 

假定 样本 是 独立 同 分 布 的 ， 则 

PCe|lg) = gn X (1—$)% 
这 是 由 于 存在 mw 个 Y= false WREE PRENERA RE 1 — 8) A n A YS true 的 
样本 (其 中 每 个 样本 出 现 的 概率 是 如 。 

先 验 概率 P( 办 可 能 是 区 间 [0，1] 上 的 均匀 分 布 。 当 Agent 没有 关于 概率 的 先 验 信息 
时 ， 均 匀 分 布 的 假定 是 合理 的 。 

图 7-15 给 出 了 一 些 基 于 不 同样 本 大 小 的 变量 $ 的 后 验 分 布 ， 其 中 假定 P(g) 为 均匀 分 
布 。 图 中 有 3 种 情形 ， (no =1, m=2), (mo =2, m=4). (nm =4, nn 二 8)。 每 一 种 情形 


均 在 相同 的 位 置 ( 即 子 ) 达 到 峰值 。 更 多 的 样本 使 得 曲线 图 更 为 尖 西 。 E 


上 述 例子 中 的 分 布 即 是 所 谓 的 Beta 4 fp (Beta distribution)， 它 的 参数 包括 两 种 样本 
HRY = false 和 Y= 二 true)ao 和 wm ， 以 及 一 个 概率 p。 按 照 惯例 ， 参 数 a: 的 取 值 比 样本 计 
WB1, Ma=n +1. Beta 分 布 定 义 为 


Beta% (p) = 让 bp" X (1— pun 


其 中 K 是 一 个 归 一 化 常量 ， 用 以 确保 所 有 值 上 的 积分 为 1。 因此 ，L0，1] 上 的 均匀 分 布 是 
beta 分 布 Beta!" , 

将 Beta 分 布 进行 推广 ， 使 其 包含 的 参数 多 于 两 个 ， 就 得 到 了 所 谓 的 Dirichlet 分 布 
(Dirichlet distribution), Dirichlet 分 布 包括 两 种 类 型 的 参数 ， 即 “计数 ”aa ，…，a: 和 概率 
参数 pi. > Per BRM: 


é 
Dirichlet™ r (py setts pi) = + II py 


其 中 ，K 是 一 个 归 一 化 常量 ， 用 以 确保 所 有 值 上 的 积分 为 1 p; 是 第 ; 个 输出 的 概率 (0 和 
力 委 1); 比 第 i 个 输出 的 计数 多 1， 即 a; =n; +1, 如 果 从 每 一 维 的 角度 看 ， Dirichlet 分 
布 函 数 的 图 像 与 图 7-15 类 似 ( 即 每 一 个 已 在 0 到 1 之 间 变 化 )。 

在 大 多 数 情况 下 ， 将 所 有 模型 (用 其 后 验 分 布 加 权 ?进行 累加 是 困难 的 ， 因 为 模型 可 能 
比较 复杂 (例如 它们 是 决策 树 ， 甚 至 是 信念 网 络 ) 。 然 而 ， 对 于 Dirichlet 分 布 来 说 , 第 i 个 
输出 的 期 望 值 是 : 


Qi 


dias 
参数 a; 比 第 ; 个 输出 的 计数 多 1 的 原因 就 是 为 了 使 得 上 述 式 子 比较 简单 。 仅 当 所 有 的 w 非 
负 和 并 非 所 有 的 w 都 为 0 时， 上述 定义 才 有 意义 。 

【 例 7-31】 考虑 例 7-30， 它 基于 一 个 观察 序列 (由 7 个 了 取 false 的 样本 和 ni 个 Y 取 
true 的 样本 组 成 ) 确 定 $ 的 值 。 考 察 如 图 7-15 所 示 的 后 验 概率 分 布 ， 令 人 感 兴趣 的 是 ， 虽 


Pie) = 
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然 $ 的 最 可 能 的 后 验 概率 值 是 下 一 ,期望值 却 是 一 后! 


na +n, ny tn +2° 


Ah, Ca =1l, n =2), (m=2, n 54) Cmn =4, m=D=—=HABHMSAD HWE 
2. San. BE RO RR OR SMI. MEFA. 


这 种 估计 值 比 六 更 好 的 原因 如 下 。 首 先 ， 它 告诉 我 们 如 果 学 习 Agent 没有 样本 该 如 何 


处 理 ， 使 用 先 验 的 均匀 分 布 ， 期 望 值 取 去 。 这 就 是 w 一 0、m 一 0 情形 下 的 期 望 值 。 第 二 ， 
ZI n=0. m=3 的 情形 。Agent 不 应 该 使 用 PO) 二 0， 因 为 它 表明 Y 是 不 可 能 的 ， 这 当 
然 是 错误 的 ! 使 用 先 验 的 均匀 分 布 ， 这 种 情形 下 的 期 望 值 二 。 4 


Agent 搜索 最 优 的 模型 并 非 一 定 要 从 先 验 的 均匀 分 布 开 始 ， 它 可 以 从 任意 的 先 验 分 布 
开始 。 如 果 Agent 从 Dirichlet 分 布 开 始 搜 索 ， 则 模型 的 后 验 概率 将 服从 Dirichlet 分 布 。 
可 以 通过 将 观察 到 的 计数 值 加 到 先 验 分 布 的 参数 a, 上 来 得 到 该 分 布 。 

独立 同 分 布 假设 可 以 表示 成 一 个 信念 网 络 ， 其 中 每 个 ef 在 给 定 模 型 m 的 条 件 下 是 独 
立 的 。 这 种 独立 性 假设 可 以 表示 成 如 图 7-16 所 示 的 信念 网 络 。 如 果 将 m 转化 成 一 个 离散 
变量 ， 则 可 利用 第 6 章 所 介绍 的 任意 一 种 推理 方法 在 该 网 络 中 进行 推理 。 该 网 络 中 的 一 种 
标准 的 推理 技术 是 基于 所 有 观察 到 的 e 去 查询 模型 变量 或 未 观察 到 的 e; 变量 。 

为 学 习 问 题 指 定 一 个 信念 网 络 的 缺陷 是 该 模型 会 随 着 观察 样本 数 的 增加 而 变 得 庞大 。 
可 以 在 接收 到 观察 样本 之 前 指定 信念 网 络 ， 其 中 接收 观察 样本 使 用 一 个 称 为 盘子 模型 
(plate model) 的 方法 。 盘 子 模型 规定 在 该 模型 中 将 
使 用 什么 变量 和 什么 样本 将 会 被 反复 观察 。 图 7-16 
右 侧 展示 了 一 个 盘子 模型 ， 它 表示 了 与 图 中 左 侧 的 
信念 网 络 相同 的 信息 。 盘 子 用 一 个 矩形 表示 ， 其 中 (e) (e) P (e) Ò, 
包含 一 些 节点 和 索引 号 (在 盘子 底 侧 右边 ) 。 用 索引 
号 对 盘 中 的 节点 进行 索引 。 在 盘子 模型 中 ， 盘 中 变 图 7-16 贝 叶 斯 学 习 的 信念 网 络 和 盘子 模型 
量 有 多 份 副 本 ,一 个 副本 对 应 索引 的 一 个 值 。 直 观 
的 想法 是 存在 一 堆 盘 子 ， 每 个 盘子 对 应 索引 的 一 个 值 。 盘 子 的 数量 依赖 于 观察 的 样本 数 和 
查询 的 内 容 。 在 图 7-16 中 ， 盘 中 的 所 有 节点 共享 一 个 公共 的 父 节点 。 给 定 父 节点 的 条 件 
下 ， 盘 中 变量 的 每 一 个 副本 的 概率 与 对 应 索引 的 概率 是 一 样 的 。 

盘子 模型 使 得 我 们 可 以 说 明 变 量 之 间 更 为 复杂 的 关系 。 在 层次 贝 叶 斯 模型 Chierarchical 
Bayesian mode) 中 ， 模 型 的 参数 可 依赖 于 其 他 的 参数 ( 正 是 这 种 意义 上 ， 称 之 为 层次 模型 ) 。 

LB 7-32] 假定 诊断 助手 Agent 想 对 一 个 特定 住院 病人 患 流 感 (在 观察 到 症状 之 前 ) 的 
概率 进行 建 模 。 可 以 将 病人 的 这 种 先 验 信息 和 观察 到 的 症状 结合 起 来 做 诊断 。Agent 的 目 
标 是 根据 有 关 病 人 (包括 相同 医院 和 不 同 医院 内 的 病人 ) 的 统计 资料 学 习 这 种 概率 。 这 个 问 
题 包括 从 “存在 许多 关于 该 医院 的 数据 (应 该 会 使 用 这 些 数 据 )”" 到 “不 存在 病人 所 在 医院 的 
有 闫 数据” 的 各 种 情形 。 层 次 贝 叶 斯 模型 可 用 于 组 合 这 些 统计 数据 。 

假定 对 于 一 个 在 医院 H 住院 的 病人 X ， 存 在 一 个 随机 变量 Snx ， 它 在 病人 患 流 感 时 取 
真 值 (假定 医院 可 根据 身份 证 号 唯一 地 确定 每 个 病人 ) 。 每 个 医院 H 都 存在 一 个 值 %a; 对 
于 医院 H 中 的 每 个 病人 ，g 用 于 表示 患 流 感 的 先 验 概率 。 在 贝 叶 斯 模型 中 ，#p 是 区 间 
[0，1] 上 的 一 个 实 值 随机 变量 。Six 依赖 于 pa CP CSu $u) = $n). BE ba 服从 Beta 分 
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AE, Pa Ald, 之 间 是 相互 独立 的 ， 但 均 依赖 于 超 参数 (hyperparameter) 。 超 参数 可 以 是 先 
验 的 样本 计数 ao 和 w 。 参 数 依赖 于 超 参 数 : PCA, aos a) = Betas (A); ao 和 ui 是 实 
值 随 机 变量 ， 确 定 它 们 的 值 需要 某 种 先 验 分 布 。 

盘子 模型 和 相应 的 信念 网 络 见 图 7-17。 图 7-17a 是 盘子 模型 ， 其 中 为 每 所 医院 维护 一 
个 外 部 盘子 的 副本 ， 为 每 个 住院 病人 维护 一 个 内 部 盘子 的 副本 。 7-17b 是 信念 网 络 。 
Sax 的 部 分 观察 值 将 影响 g#z ， 进 而 影响 wo 和 ww; ao 和 mw 反 过 来 将 影响 其 他 的 gr 变量 和 未 
观察 到 的 Sux 变量 。 





a) b) 
图 7-17 层次 贝 叶 斯 模型 

现存 的 统计 方法 可 用 于 估算 该 网 络 。 然 而 ， 如 果 变 量 是 离散 型 的 ， 则 可 应 用 第 6 章 介 
绍 的 任意 方法 。 “a 

除了 利用 #$ 的 后 验 概率 分 布 导 出 期 望 值 ， 我 们 还 可 以 利用 它 回 答 其 他 的 问题 ， 例 如 : 
$ 的 后 验 概 分 布 在 区 间 [a,，65j 上 的 概率 是 多 少 ? 即 计 算 PCa Apo) |e)。 这 就 是 牧师 
托马斯 贝 叶 斯 在 200 多 年 以 前 解决 的 问题 [Bayes，1763]， 他 给 出 的 答案 (虽然 使 用 了 比较 
繁 元 的 记号 ) 是 : 

[| “= pr 

| pP X (1—p)™™" 
这 种 知识 可 用 于 测量 中 ， 可 能 会 有 这 样 的 报告 : 20 次 测量 中 ， 至 少 有 19 次 测量 的 误差 至 
多 不 超过 5%。 这 与 用 于 可 能 近似 正确 (PAC) 学 习 中 的 信息 类 型 一 致 ，PAC 学 习 保 证 误差 


至 少 以 1 一 6 的 概率 至 多 不 超过 e。 如 果 Agent 选择 [a， 恕 的 中 点 ( 即 4 和 <) 作 为 它 的 假设 ， 





， 这 种 结论 仅 当 假设 位 于 La, 5] 区 间 内 才 成 立 。1 一 6 的 值 相当 于 


Pza Nb) |e)。 如 果 ec 一气 “ 和 d=1—P((e>ah$<b) |e)， 选 择 中 点 作为 假设 将 导 


致 误 差 至 少 以 1 一 $ 的 概率 至 多 不 超过 se。PAC 学 习 给 出 了 最 坏 情况 下 的 结果 ， 而 贝 叶 斯 
学 习 则 给 出 了 期 望 值 。 通 常情 况 下 ， 贝 叶 斯 估计 更 准确 ， 但 PAC 结果 给 出 了 误差 的 界 。 
与 PAC 学 习 相 比 ， 贝 叶 斯 学 习 所 需 的 样本 复杂 度 ( 见 7.7.2 节 ) 通 常 少 很 多 一 一 与 保证 获 
得 满意 的 准确 率 相 比 ， 只 需要 更 少 的 样本 就 可 以 期 望 获得 满意 的 准确 率 。 


7.9 本 章 小 结 


。 学 习 是 一 个 Agent 基于 经 验 改善 其 行为 的 能 力 。 
。 有 监督 学 习 指 的 是 给 定 一 组 由 输入 -输出 对 组 成 的 训练 样本 ， 预 测 一 个 新 输入 所 对 应 的 输出 。 
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+ 给 定 一 些 训练 样本 ，Agent 构建 一 种 能 用 于 新 预测 的 表示 形式 。 

。 线性 分 类 器 、 决 策 树 和 贝 叶 斯 分 类 器 均 为 简单 的 学 习 模型 ， 它 们 是 更 复杂 模型 的 基础 。 

。 给 定 训练 样本 的 条 件 下 ，Agent 能 够 选择 最 优 的 假设 ， 能 够 勾画 与 训练 数据 一 致 的 所 有 假设 ,或 
者 计算 假设 的 后 验 概率 。 
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7.11 习题 


7.1 该 习题 的 目的 是 填充 如 图 7-3 所 示 的 表 。 
(a) 证 明 关 于 训练 数据 的 最 优 预 测 。 为 此 ， 分 别 找 出 绝对 误差 、 平 方 和 误差 和 炉 的 最 小 值 ， 以 及 最 
大 化 似 然 性 的 值 。 最 大 或 最 小 值 在 端点 或 导数 为 零 的 点 取得 。 
(b) 为 了 确定 测试 数据 的 最 优 预 测 ， 假 定数 据 是 根据 某 个 真实 的 参数 po 随机 生成 的 。 对 于 po ELO, 
1] 的 不 同 取 值 ， 设 法 进行 下 列 操作 : 通过 采样 (采样 的 概率 为 po) 生 成 个 训练 样本 (尝试 不 同 
hk, 一 些 比 较 小 ， 例 如 5; 一 些 比较 大 ， 例 如 1 000) 。 由 生成 的 样本 可 以 计算 no Am. FIA 
相同 的 参数 加 生成 一 个 包含 许多 测试 样本 的 测试 集 。 对 于 每 一 种 优化 准则 (绝对 误差 、 平 方 和 
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误差 和 似 然 性 (或 箭 ))， 下 列 哪 种 情形 在 测试 集 上 的 误差 较 小 ? 

i) 模 数 

ii) ni/ Cryo +n) 

iii) 如 果 my 二 0， 则 使 用 0.001; 如 果 no =O, ME 0.999; 否则 使 用 /Cm 十 zy )。( 当 计数 为 
0 时 用 不 同 的 数 进行 尝试 .) 

iv) (ny +1)/Cna +n, +2) 

v) (nı +a) / Cn +n + 2a) (ERA AY a>0 取 值 ) 

vi) 别 的 预测 器 ， 它 是 mw Mm 的 函数 。 

你 可 能 不 得 不 为 每 种 参数 值 生成 许多 不 同 的 训练 集 。( 基 于 这 些 数学 意义 上 随机 生成 的 样本 ， 

对 于 每 一 种 准则 ， 你 能 证 明 最 优 的 预测 器 是 什么 ?) 

7.2 在 值 域 为 (0，1} 的 特征 (无 输入 特征 ) 的 点 估计 中 ，Agent 基于 参数 pE [0，1] 做 随机 预测 是 可 能 的 ， 
其 中 预测 为 1 和 0 的 概率 分 别 是 p 和 1 一 p。 对 于 下 面 的 每 一 种 误差 度量 ,给 出 训练 集 上 的 期 望 误 
差 ， 其 中 训练 集 由 mw 个 取 值 为 0 的 样本 和 个 取 值 为 1 的 样本 构成 ，n。 和 wi 均 为 户 的 函数 。 最 
小 化 误差 的 p 值 是 多 少 ? 与 如 图 7-3 所 示 的 预测 值 相 比 ，p 的 值 是 否 更 好 ? 





(a) 绝对 误差 

(b) 平方 和 误差 ee oo Lawyers Guns = 
342 Co) 最 坏 情况 误差 true false true 
7.3 假定 存在 这 样 一 个 系统 ， 它 观察 用 户 看 电视 的 false false true 
习惯 ， 目 的 是 向 该 用 户 推荐 他 可 能 喜欢 的 电视 false false false 
节目 .每 个 节目 均 由 下 列 特 征 描述 : 是 否 是 嘉 |” iise. ee a 
B? 有 医生 吗 ? 有 律师 吗 ? 有 枪支 吗 ? 给 定 如 |" 
图 7-18 所 示 的 关于 用 户 是 否 喜 欢 电 视 节目 的 |” Se zaa 
样本 ， 我 们 的 目标 是 利用 这 些 数据 学 习 特 征 false true false 
Likes 的 值 ( 即 基于 电视 节目 的 特征 预测 用 户 喜 |* true true true 
欢 哪 个 电视 节目 ) 。 1 true true false 
你 可 以 在 网 站 Alspace. org 上 找到 关于 该 false false false 

作业 的 有 用 的 小 程序 。( 在 开始 之 前 ， 看 看 你 7-18 习题 7. 3 的 训练 样本 


是 否 能 够 找 出 用 户 喜欢 的 电视 节目 的 规律 。) 

(a) 采用 绝对 误差 ， 给 出 只 有 一 个 节点 ( 即 无 分 裂 ) 的 最 优 决 策 树 。 该 决策 树 的 误差 是 多 少 ? 

Cb) 采用 平方 和 误差 ， 求 解 与 (a) 相 同 的 问题 . 

Cc) 采用 绝对 误差 ， 给 出 深度 为 2( 即 根 节点 是 唯一 的 有 和 孩子 的 节点 ) 的 最 优 决 策 树 。 对 于 树 中 的 每 
个 叶子 节点 ， 给 出 经 过 滤 到 达 该 节点 的 样本 。 该 决策 树 的 误差 是 多 少 ? 

(d) 采用 平方 和 误差 ,求解 与 (c) 相 同 的 问题 。 

Ce) 正确 分 类 所 有 训练 样本 的 最 小 决策 树 是 什么 ? 自 顶 向 下 每 一 步 优 化 信息 增益 的 决策 树 与 正确 分 
类 所 有 训练 样本 的 最 小 决策 树 表 示 相 同 的 函数 吗 ? 

D 给 出 两 个 不 在 图 7-18 中 的 样 例 ， 并 展示 如 何 应 用 最 小 决策 树 对 该 样 例 进行 分 类 。 然 后 解释 决策 
树 男 有 的 学 习 偏 置 。( 偏 置 是 如 何 指导 这 些 特定 预测 的 ?) 

Cg) 这 个 数据 集 是 线性 可 分 的 吗 ? 解释 原因 。 

343) 7.4 考虑 如 图 7-5 所 示 的 决策 树 学 习 算法 和 如 图 7-1 所 示 的 数据 。 假 定 停止 的 准则 是 所 有 样本 的 分 类 不 
再 发 生变 化 。 如 图 7-4 所 示 的 决策 树 是 通过 选择 具有 最 大 信息 增益 的 特征 作 分 裂 而 构建 的 。 问 题 是 
考虑 当选 择 不 同 的 特征 作 分 错时 会 发 生 什 么 。 

(a) 改变 算法 使 得 总 是 选择 特征 列表 中 的 第 一 个 元 素 作 分 裂 。 当 特征 按 顺 序 LAuthor，、TAhread， 
Length，WhereRead ] 排 列 时 生成 的 决策 树 是 什么 ?与 选择 具有 最 大 信息 增益 的 特征 作 分裂 得 到 
的 决策 树 相 比 ， 新 的 决策 树 表 示 一 个 不 同 的 函数 吗 ? 解释 原因 。 

(b》 当 特征 按 顺 序 [WhereRead ，Thread，Length，Author] 排 列 时 生成 的 决策 树 是 什么 ?与 选择 具 
有 最 大 信息 增益 的 特征 作 分 裂 得 到 的 决策 树 相 比 或 与 Ca) 中 的 决策 树 相 比 ， 新 的 决策 树 表示 一 


7.5 


7.6 


7.8 


7.9 
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个 不 同 的 函数 吗 ? 解释 原因 。 

O 是 否 存在 这 样 的 一 棵 决策 树 : 它 正确 分 类 了 训练 样本 ， 但 与 采用 前 面 的 算法 得 到 的 决策 树 相 比 
却 表 示 一 个 不 同 的 函数 ? 如 果 有 ， 给 出 这 样 的 决策 树 ; 如 果 没 有 ， 解 释 原 因 。 

考虑 式 (7.1)， 它 给 出 了 线性 预测 的 误差 。 

(a) 当 n==1( 即 只 有 一 个 输入 特征 ) 时 ， 给 出 最 小 化 误差 时 的 权 值 计算 公式 。( 提 示 : 对 每 一 个 权重 
变量 求 导 ， 并 令 其 为 0。) 

Ch) 当 n 取 任意 值 时 ,给 出 最 小 化 误差 时 的 权 值 的 计算 公式 集 。 

(c) 当 使 用 sigmoid 线性 函数 (激活 函数 为 sigmoid 或 logistic 函数 的 扁 线 性 函数 ) 时 ,为 什么 解析 地 
最 小 化 误差 是 困难 的 ? 

假定 对 于 神经 网 络 的 输出 ， 我 们 规定 大 于 0. 5 的 值 为 真 ， 小 于 0. 5 的 值 为 假 (在 输入 激活 函数 之 前 ， 

任意 正 数 为 真 、 负 数 为 假 ) 。 

对 于 具有 两 个 隐藏 节点 的 神经 网 络 ， 在 如 图 7-9 所 示 的 数据 上 运行 AIspace. org 上 的 神经 网 络 学 习 

小 程序 。 获 得 最 终 的 参数 值 后 ， 给 出 一 个 表示 布尔 函数 的 逻辑 公式 (或 一 棵 决策 树 或 一 个 规则 的 集 

合 ) ， 其 中 的 布尔 函数 计算 隐藏 节点 和 输出 节点 的 值 。 该 公式 或 规则 集 不 应 是 任意 实数 。 

GER: 一 种 “ 蛮 力 ”搜索 法 是 : 对 于 每 一 个 隐藏 节点 ， 检 查 输 人 值 的 16 种 组 合 ; 然后 确定 输出 的 真 

正 值 。 更 好 的 方法 是 设法 理解 函数 本 身 .) 

神经 网 络 学 得 了 与 决策 树 相同 的 函数 吗 ? 

确定 决策 树 的 空间 大 小 。 假 定 学 习 问 题 中 存在 ”个 二 元 特征 。 总 共有 多 少 棵 不 同 的 决策 树 ? 这 些 决 

策 树 表 示 了 多 少 个 不 同 的 函数 ? 两 棵 不 同 的 决策 树 可 能 会 导致 相同 的 画 数 吗 ? 

扩展 如 图 7-5 所 示 的 决策 树 学 习 算 法 ， 使 得 可 以 表示 多 值 特征 ， 并 返回 决策 树 的 规则 形式 。 

需要 克服 的 一 个 问题 是 ， 如 何 处 理 没有 样本 与 所 选 特征 的 特定 值 相符 的 情形 。 此 时 ， 你 必须 作出 一 

个 合理 的 预 估 。 

如 图 7-5 所 示 的 决策 树 学 习 算法 在 特征 用 完 后 必须 停止 ， 即 使 并 非 所 有 的 样本 在 分 类 上 取得 一 致 。 

假定 你 正在 构建 一 棵 决策 树 ， 且 到 达 了 这 样 一 个 阶段 : 已 经 没有 剩余 特征 可 用 于 分 裂 ， 但 训练 集中 

还 有 n 个 正 类 样本 和 n 个 负 类 样本 没有 处 理 完毕 。 此 时 有 3 种 建议 的 策略 可 用 : 

iD 返回 多 数 样 本 的 取 值 WMR m>, WIRE true; WR n <n, MEE false; MRM m= 

no» ， 则 返回 true 和 false 中 的 任意 一 个 。 

让) 返回 经 验 频 率 m/n +m). 

i 返回 (ni 十 1)/ Gr +n; +2). 

对 于 下 列 定义 的 误差 ， 上 述 哪 种 策略 在 训练 集 上 的 误差 最 小 ? 解释 原因 。 

(a) ERRE S= true 和 0= false) 与 决策 树 预测 值 (1 二 true、0== false 或 概率 值 ) 之 差 的 和 。 

Cb) 样本 的 值 (1 二 true 和 0= false) FRM MAO =true, 0= false 或 概率 值 ) 之 差 的 平方 和 。 

(c) RHE HAG . f 





7.10 ”关于 在 决策 树 搜索 中 选择 哪个 特征 进行 分 裂 的 问题 ， 除 了 如 7. 3. 1 节 所 述 的 最 大 化 信息 分 裂 的 方 


法 ， 另 一 种 可 选 的 启发 式 方法 是 使 用 Gini 指数 。 
一 个 样本 集 的 Gini 指数 (关于 目标 特征 Y) 是 样本 集 不 纯 性 的 一 种 度量 : 


ies oe {e € Examples:wul(e,Y) = Val} | \* 
giniy (Examples) = 1 Dy ( Ecampics| ) 


其 中 | {e€ Examples; valle, Y)=Val) | 是 特征 了 的 值 为 Val 的 样本 个 数 ， | Example | 是 所 有 样 
本 的 总 个 数 。Gini 指数 总 是 非 负 的 ， 仅 当 所 有 样本 具有 相同 特征 值 的 时 候 才 为 0。 当 样本 在 特征 
的 不 同 取 值 上 平均 分 布 时 ，Gini 指数 达到 最 大 值 。 

选择 哪个 特征 作 分 裂 的 启发 式 方法 是 : 选择 能 最 小 化 训练 样本 在 目标 特征 上 总 的 不 纯度 ( 即 所 有 叶 
子 节点 不 纯度 的 和 ) 的 特征 。 

(a) 实现 使 用 Gini 指数 的 决策 树 搜索 算法 。 

(b) 尝试 在 一 些 数 据 库 上 分 别 运行 基于 Gini 指数 的 算法 和 基于 最 大 化 信息 分 裂 的 算法 ， 看 看 哪个 
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结果 更 优 。 

(c) 找 出 一 个 样 例 数据 库 ， 使 得 基于 Gini 指数 的 算法 找到 一 个 与 基于 最 大 化 信息 增益 的 启发 式 算 
法 不 同 的 决策 树 。 对 于 这 个 数据 库 ， 哪 种 启发 式 算 法 更 优 ? 并 考虑 哪 种 启发 式 算法 对 手头 的 
数据 更 为 敬 感 。 

(d) 设法 找 出 一 个 样 例 数据 库 ， 使 得 基于 最 大 化 信息 分 裂 的 算法 比 基 于 Gini 指数 的 算法 更 为 敏感 。 
设法 找 出 另 一 个 样 例 数据 库 ， 使 得 基于 Gini 指数 的 算法 更 优 . GER: 尝试 极端 分 布 。) 

参考 例 7-18 的 说 明 ， 为 描述 决策 树 定义 一 种 编码 。 确保 每 一 种 编码 对 应 一 棵 决策 树 ( 对 于 足够 长 

的 二 进 制 位 序列 ， 初 始 的 分 段 将 描述 一 棵 唯一 的 决策 树 )， 每 一 棵 决策 树 都 有 一 种 编码 。 这 种 编码 

如 何 翻 译 为 决策 树 上 的 先 验 分 布 ? 特别 的 ， 引 入 一 个 新 的 分 裂 有 多 大 的 可 能 性 必须 补偿 分 裂 的 先 

验 概 率 的 减少 值 ( 假 定 在 编码 中 小 的 决策 树 比 大 的 决策 树 更 易于 描述 )? 

说 明 梯 度 下 降 搜索 如 何 应 用 于 学 习 一 个 最 小 化 绝对 误差 的 线性 函数 。( 提 示 : 对 误差 做 实例 分 析 。 

除了 误差 为 0 的 情形 (此 时 不 必 进 行 更 新 操作 ) ， 该 误差 在 各 个 点 都 是 可 征 的 。) 

给 出 一 个 实例 ,使 得 当 使 用 经 验 频 率 作 为 概率 时 ， 朴 素 贝 叶 斯 分 类 器 能 给 出 不 一 致 的 结果 。( 提 

AR: 你 需要 两 个 特征 ， 比 方 说 A 和 B， 和 一 个 值 域 为 {0，1}) 二 元 分 类 ， 比 方 说 C。 构 造 一 个 数据 

集 ， 其 中 经 验 频率 为 Pla|C==0)==0 和 P(t6|C 二 1) 二 0。) 什 么 样 的 观察 与 该 模型 不 一 致 ? 

在 如 图 7-1 所 示 的 数据 上 运行 AIspace. org 上 的 神经 网 络 学 习 器 。 

(a) 假定 你 决定 将 神经 网 络 的 任意 大 于 0. 5 的 预测 值 视 为 真 ， 小 于 0. 5 的 视 为 假 。 初 始 时 有 多 少 被 
误 分 的 样本 ? 40 次 选 代 之 后 又 有 多 少 被 误 分 的 样本 ? 80 次 迭代 之 后 呢 ? 

(b) 采用 相同 的 样本 和 相同 的 初始 值 ， 改 变 梯 度 下 降 搜 索 的 步 长 。 至 少 尝试 ?一 0.1、7 一 1L0 和 7 
=5. 0 三 种 情况 。 对 步 长 和 算法 收敛 之 间 的 关系 作出 评论 。 

(c) 找到 最 终 的 参数 值 之 后 ， 给 出 每 个 单元 计算 的 逻辑 公式 。 你 可 以 这 样 做 : 首先 考虑 每 个 单元 
输入 值 的 真 值 表 和 确定 每 一 个 组 合 的 输出 ， 然 后 约 简 公式 。 总 是 可 以 找到 这 样 的 公式 吗 ? 

(d) 不 同 的 参数 设 定 的 初始 值 是 不 同 的 。 如 果 为 所 有 的 参数 设 定 相同 的 (随机 ) 值 ， 将 会 发 生 什 么 

情况 ? 在 其 他 的 数据 上 进行 相同 的 测试 ， 并 猜测 一 般 情 况 下 会 发 生 什 么 。 

评论 神经 网 络 算法 的 下 列 停止 准则 : 

有 限 步 的 迭代 ， 其 中 有 限 步 数 是 初始 时 设 定 的 。 

ii) 平方 和 误差 小 于 0. 25。 解 释 为 什么 0. 25 可 能 是 一 个 合适 的 选择 。 

iD 所 有 导数 的 绝对 值 均 小 于 s(e>0) 。 

iv) 将 数据 划分 为 训练 集 和 测试 集 ， 当 在 测试 集 上 的 误差 增加 时 算法 停止 。 

你 期 望 包 种 准则 更 好 地 处 理 “ 过 拟 合 ” 问 题 ? 哪 种 准则 能 确保 梯度 下 降 法 停止 搜索 ? 哪 种 准则 能 确 

保 如 果 停 止 搜索 ， 学 得 的 网 络 能 准确 地 对 测试 数据 进行 预测 ? 

神经 网 络 学 习 算 法 是 基于 每 个 样本 更 新 参数 值 的 。 为 了 准确 地 计算 导数 值 ， 应 该 在 观察 到 所 有 样 

本 之 后 才 进 行 参数 值 的 更 新 。 实 现 这 样 的 学 习 算 法 ， 并 与 增 量 算法 进行 收敛 速度 和 算法 运行 速度 

方面 的 比较 。 

(a) 画 出 如 图 7-1 所 示 数 据 的 一 棵 kd 树 。 用 于 分 裂 的 最 优 特征 应 当 最 大 程度 上 将 样本 集 划 分 为 大 
小 相同 的 两 类 。 假 定 你 知道 在 后 续 的 查询 中 不 会 出 现 特征 UserAcrion， 因 此 不 应 选 它 作 分 裂 。 
说 明 训 练 样本 分 别 位 于 哪个 叶子 节点 上 。 

(b) 对 于 一 个 特征 Author, Thread, Length 和 WhereRead 的 值 分 别 是 unknown, new, long 和 
work 的 新 样本 ， 指 出 与 它 最 相似 的 训练 样本 在 决策 树 上 的 位 置 。 

(c) 基于 这 个 实例 ， 讨 论 从 kd 树 的 查找 表 会 返回 哪些 样本 。 这 为 什么 和 决策 树 的 查找 表 不 同 ? 

实现 一 个 将 训练 样本 存储 在 一 棵 kd 树 上 的 最 近邻 学 习 系 统 ， 使 用 那些 具有 不 同 最 小 特征 (这 些 特 

征 的 权重 是 均衡 的 ) 数 目的 近邻 样本 作 决 策 。 在 实践 中 这 种 方法 效果 如 何 ? 
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确定 性 规划 





人 们 每 天 早晨 都 会 为 一 天 的 行程 做 一 个 规划 ， 并 执行 这 个 规划 ， 这 个 规划 伴随 他 度 过 
一 天 天 忙碌 的 生活 。 a Oe ee ee N, 
那么 生活 很 快 就 会 陷入 混乱 。 





Victor Hugo(1802—1885) 


规划 是 Agent 如 何 实现 其 目标 的 行动 方案 。Agent 要 完成 任何 事情 即使 是 实现 最 简单 
的 目标 ， 它 必须 推测 (考虑 ) 其 未 来 的 目标 。 因 为 Agent 通常 不 能 在 一 步 之 内 就 实现 其 目 
标 ， 所 以 它 在 任 一 时 刻 的 行为 取决 于 它 将 来 的 行为 。 而 它 将 来 的 行为 又 取决 于 现在 的 状 
态 ， 也 就 是 它 过 去 的 行为 。 本 章 介 绍 了 如 何 表示 Agent 的 动作 以 及 执行 动作 后 所 产生 的 结 
R, AR Agent 如 何 用 这 些 模型 制定 一 个 规划 实现 其 目标 。 

本 章 主要 考虑 以 下 几 种 情况 : 

。 Agent 的 行动 是 确定 性 的 ， 即 Agent 能 够 预测 它 的 行动 的 结果 。 

。 不 存在 超出 Agent 控制 的 改变 世界 状态 的 外 部 事件 。 

。 世界 是 完全 可 观察 的 ，Agent 可 以 观察 世界 的 当前 状态 。 

。 时 间 是 一 个 状态 到 另 一 个 状态 的 离散 推移 。 

。 目标 是 必须 实现 或 者 维护 的 状态 谓词 。 

在 后 面 章节 中 ， 这 些 假 设 条 件 有 所 放宽 。 


8.1 状态、 动作 以 及 目标 的 表示 


为 了 要 推测 (考虑 ) 做 什么 ，Agent 必须 要 有 目标 、 某 个 世界 模型 ， 以 及 一 个 行动 结果 
模型 。 

确定 性 动作 是 状态 到 状态 的 一 个 部 分 函数 。 之 所 以 是 部 分 函数 ， 是 因为 在 每 一 个 状态 
下 不 是 每 个 动作 都 会 执行 。 例 如 ， 机 器 人 如 果 不 
在 物体 的 附近 ， 那 么 它 就 不 能 执行 拿 起 这 个 物体 
的 动作 。 动 作 的 先决 条 件 (precondition) 是 指 何 
时 能 够 执行 这 个 动作 ， 而 动作 的 影响 (effect) 是 
指 执 行动 作 后 产生 的 状态 ， 即 结果 状态 。 

【 例 8-1】 考虑 传送 邮件 和 咖 罪 的 传送 机 器 
人 世界 。 假 设 一 个 简单 的 环境 有 4 个 位 置 ， 如 





图 8-1 所 示 。 机 器 人 Rob 可 以 在 咖啡 店 买 咖啡 ， 措 述 状态 的 特征 ai 

在 收发 室 取 邮 件 ， 移 动 ， 还 可 以 传送 咖啡 和 邮 RLoc-Rob 的 位 轩 mc- 顺 时 针 移动 
件 。 把 咖啡 送 到 Sam 的 办 公 室 的 动作 将 会 中 止 ”REC-Rob 是 否 有 咖啡 mice- 道 时 针 移 动 
Sam 想 要 咖啡 的 动作 。 收 发 宝 有 要 送 往 Sam 办 Vy meee pae mid 
公 室 的 邮件 。 这 个 环境 非常 简单 ， 但 是 也 是 够 说 ”RHM-Rob 是 否 有 邮件 pum- 取 邮件 
明 表 示 动 作 方 面 以 及 规划 中 的 许多 问题 了 。 dm- 递 邮件 


状态 可 描述 为 以 下 特征 : 图 8-1 传送 机 器 人 领域 
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。 机 器 人 的 位 置 (RLoc) 可 以 是 咖啡 店 (cs)、Sam 的 办 公 室 (off)、 收 发 室 (mr) 或 者 

实验 室 (1ab) 中 的 某 个 。 

BLAS A SE A EC RHC): rhe 表示 Rob 有 咖啡 ，rhc 表 示 Rob 没有 咖啡 。 

Sam 是 否 想 要 咖 罪 (SWC)， swe 表示 Sam 想 要 咖啡 ，swc 表 示 Sam 不 想 要 咖啡 。 

。 收发 室 是 否 有 邮件 CMVW) : mw 表示 有 邮件 ，mw 表 示 没 有 邮件 。 

。 机 器 人 身上 是 否 有 邮件 (RHM) : rhm 表示 机 器 人 身上 有 邮件 ，rhm 表 示 机 器 人 身 
上 没有 邮件 。 

假设 Rob 有 6 个 动作 : 

。 Rob 可 以 顺 时 针 移 动 (mc)。 

。 Rob T AX E Z Cnc). 

。 Rob 在 咖啡 店 可 以 拿 起 咖啡 。puc 表示 Rob 拿 起 咖啡 ， 它 的 前 提 条 件 是 rhc A RLoc= 
cs， 也 就 是 说 当 Rob 的 位 置 是 cs 并 且 身 上 还 没有 咖啡 的 状态 下 可 以 拿 起 咖啡 。 这 
个 动作 的 结果 就 是 使 得 RHC 为 真 。 它 不 会 影响 其 他 的 特性 。 

。 如 果 Rob 拿 着 咖啡 并 且 在 Sam 的 办 公 室 ，Rob 就 可 以 递送 咖啡 。dc 表示 Rob iH 
咖啡 ， 它 的 前 提 条 件 是 rhe \ RLoc 二 of 。 这 个 动作 的 结果 就 是 使 得 RHC 为 真 并 


H SWC 为 假 。 
。 如 果 Rob 在 收发 室 并 且 收 发 室 有 邮件 ，Rob 就 可 以 取 邮 件 了 。pum 表示 Rob 取 
邮件 。 
。 如 果 Rob 拿 着 邮件 并 且 在 Sam 的 办 公 室 ， 那 么 它 就 可 以 递 邮件 了 。dm 表示 Rob 
递 邮件 。 
假设 Rob 在 一 个 时 间 内 只 能 执行 一 个 动作 ，、 并 且 假 定 一 个 低层 的 控制 器 可 以 执行 这 些 
动作 。 4 


8.1.1 显 式 状态 空间 表示 法 


一 种 表示 动作 的 结果 和 先决 条 件 的 方法 是 显 式 地 列举 出 每 一 个 状态 ， 以 及 每 一 状态 下 
可 能 执行 的 动作 ， 对 每 一 个 状态 -动作 对 ， 列 出 在 这 一 状态 下 执行 这 个 动作 后 所 到 达 的 状 
态 。 这 需要 下 面 这 样 的 一 个 表格 : 





这 个 关系 表 中 的 第 一 行 元 组 表示 状态 sy 时 可 能 执行 动作 actr ， 如 果 状 态 s 下 执行 了 
动作 actrz ， 那 么 结果 状态 将 是 sw 。 

因此 ， 这 就 是 以 图 的 形式 显 式 地 表示 动作 ， 称 为 状态 空间 图 (state-space graph), 第 3 
章 用 过 此 类 图 。 

【 例 8-2〗 在 例 8-1 中 ， 状 态 由 一 个 五 元 组 表示 : 指定 了 机 器 人 的 位 置 ， 机 器 人 是 否 有 咖 
HE, Sam 是 否 想 要 咖啡 ， 收 发 室 是 否 有 邮件 ， 机 器 人 身上 是 否 有 邮件 。 例 如 ， 元 组 

(lab ,rhe swe srw rhm) 

表示 状态 : Rob 在 实验 室 ，Rob 没有 咖啡 ，Sam 想 要 咖啡 ， 收 发 室 没 有 邮件 ，Rob 身 
上 有 邮件 。 
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(lab rhe ,Stuc yw srhm) 

表示 状态 : Rob 在 实验 室 ， Rob 拿 着 咖啡 ， Sam 想 要 咖啡 ， 收 发 室 有 邮件 ，Rob 身上 没有 
邮件 。 

在 这 个 例子 中 ， 总 共有 4X2X2X2X2=64 个 状态 。 直 观 上 ， 这 些 状态 几乎 都 可 以 实 
现 ， 即 便 你 不 相信 一 个 智能 机 器 人 能 够 达到 其 中 某 些 状态 。 

下 面 有 6 个 动作 ， 但 不 是 每 个 状态 下 的 所 有 这 些 动作 都 是 可 行 的 。 

这 些 动作 按照 状态 转移 的 形式 定义 如 下 : 





， rhm) <mr, 


mw, rhm) (off, rhe 


mw, rhm) (off. rhe 
mw, rhm) (Css 


mw, rhm} (lab, rhe, s 





这 个 表格 显示 了 两 个 状态 之 间 的 转换 。 完 整 的 问题 表示 还 包括 其 他 62 个 状态 之 间 的 
转换 。 < 

这 种 表示 不 是 一 种 非常 好 的 表示 方法 ， 原 因 有 三 : 

。 通常 有 太 多 状态 需要 表示 、 获 取 和 推理 。 

。 模型 很 小 的 改变 就 意味 着 表示 上 很 大 的 改变 。 模 型 男 一 特征 就 是 整体 表示 的 改变 。 
例如 ， 要 对 机 器 人 的 电力 层 建 模 ， 使 得 机 器 人 可 以 在 实验 室 进行 充电 ， 那 么 所 有 
的 状态 都 要 调整 。 

。 通常 有 大 量 的 结构 和 行动 效果 的 规则 。 这 个 结构 可 以 使 得 对 动作 的 先决 条 件 、 结 
果 以 及 关于 它们 的 推测 的 表达 更 加 简洁 和 有 效 。 

一 种 方法 是 根据 动作 影响 特征 来 对 动作 的 结果 建 模 。 


8. 1.2 基于 特征 的 动作 表示 


基于 特征 的 动作 模型 表示 : 

。 根据 状态 的 特征 值 ， 判 断 一 个 状态 下 哪些 动作 是 可 能 的 ; 

。 当前 状态 和 动作 的 特征 值 如 何 影响 下 一 状态 的 特征 值 。 

某 一 动作 的 先决 条 件 是 在 执行 这 个 动作 前 必须 为 真 的 命题 。 按 照 约 束 的 形式 ， 约 束 要 
求 机 器 人 只 能 选择 先决 条 件 为 真 的 动作 。 

Ci 8-3〗 例 8-1 中 ，Rob 拿 起 咖啡 (puc) 的 动作 的 先决 条 件 是 cs 人 rhc， 也 就 是 说 ， 
Rob 必须 在 咖啡 店 (cs) ， 并 且 身 上 没有 咖啡 Crhc)。 作 为 一 个 约束 条 件 ， 意 味 着 Rob 在 任 
何其 他 位 置 或 者 rhc 为 真 时 ， 动 作 puc 都 是 不 可 行 的 。 

顺 时 针 移动 的 动作 总 是 可 能 的 ， 它 的 先决 条 件 为 真 。 < 

基于 特征 的 动作 表示 (feature-based representation of actions) 使 用 规则 来 为 动作 的 结 
果 状 态 的 变量 赋值 。 这 些 规则 的 实体 可 以 包含 执行 的 动作 以 及 前 一 个 状态 的 特征 值 。 

规则 有 两 种 形式 : 

。 ARMM (causal rule) 指 定 一 个 特征 获得 一 个 新 值 的 时 间 ; 

。 框架 规则 (frame rule) 指 定 一 个 特征 保留 其 自身 值 的 时 间 。 

将 这 两 种 情况 分 开 考 虑 是 很 有 用 的 : 什么 情况 使 得 该 特征 值 改变 ， 什 么 情况 又 使 得 该 
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特征 值 保持 不 变 。 . 

【 例 8-4〗 例 8-1 中 ，Rob 的 位 置 取决 于 它 先前 的 位 置 以 及 它 向 哪个 方向 移动 。 令 
RLoc' 表 示 指 定 结 果 状 态 位 置 的 变量 。 下 面 的 规则 指定 了 Rob 在 咖啡 店 的 一 些 条 件 。 

RLoc’=cs<—RLoc=off A Act=mcec 

RLoc’ =cs«-RLoc= mr A Act= me 

RLoc’ =cs«-RLoc=cs A Act mec N Act#me 
前 两 个 规则 是 因果 规则 ， 最 后 一 个 是 框架 规则 。 

机 器 人 在 结果 状态 中 是 否 有 咖啡 取决 于 它 前 一 个 状态 是 否 有 咖啡 以 及 它 的 动作 : 

rhe’ <-rhe A Act#dc 

rhe’ Act = puc - 
其 中 第 一 个 是 框架 规则 ， 它 指定 机 器 人 一 直 拿 着 咖啡 直到 送出 咖啡 为 止 ， 这 个 规则 隐 含 地 
告诉 我 们 机 器 人 不 能 丢弃 或 者 遗失 咖啡 ,而 且 咖 啡 也 不 能 被 偷 走 。 第 二 个 是 因果 规则 ， 指 
定 拿 起 咖啡 的 动作 导致 下 一 个 时 间 步 中 机 器 人 有 了 咖啡 。 < 

因果 规则 和 框架 规则 并 未 指定 一 个 动作 可 能 在 什么 时 间 发 生 ， 这 是 由 动作 的 先决 条 件 
定义 的 。 


8.1.3 STRIPS 表示 法 


前 面 的 表示 方法 是 基于 特征 的 方法 ， 对 每 个 特征 都 有 规则 来 指定 它 的 值 ， 即 执行 动作 
后 到 达 的 状态 的 特征 值 。 另 一 种 方法 是 基于 动作 的 表示 ， 对 每 个 动作 指定 它 的 结果 。 
STRIPS 就 是 这 样 一 个 表示 方法 。STRIPS(STanford Research Institute Problem Solver), 
即 斯 坦 福 研究 所 问题 求解 系统 ， 是 用 在 机 器 人 Shakey 上 的 规划 程序 ，Shakey 是 第 一 个 用 
人 工 智 能 技术 设计 的 机 器 人 。 

首先 ， 将 描述 世界 的 特征 分 为 原始 (primitive) 特 征 和 导出 (derived) 特 征 。 在 任意 给 定 状 
态 下 ， 确 定子 句 是 用 于 从 原始 特征 值 决定 导出 特征 值 。STRIPS 表示 方法 用 于 确定 某 一 状态 
下 原始 特征 的 值 ， 这 一 状态 是 基于 先前 的 状态 以 及 Agent 所 采取 的 动作 而 产生 的 。 

STRIPS 表示 法 基于 以 下 思想 : 大 多 数 的 事情 不 受 单一 动作 影响 。 对 每 一 个 动作 ， 
STRIPS 对 何 时 该 动作 可 能 发 生 以 及 该 动作 会 影响 哪些 原始 特征 进行 建 模 。 动 作 的 结果 依 
i STRIPS 假设 : 所 有 在 动作 的 描述 中 没有 提 到 的 原始 特征 均 保持 不 变 。 

某 一 动作 的 STRIPS 表示 由 以 下 两 部 分 组 成 : 

。 先决 条 件 是 特征 赋值 的 一 个 集合 ， 这 些 特征 在 这 个 动作 发 生 时 必须 为 真 。 

。 影响 是 执行 动作 后 而 发 生 改 变 的 原始 特征 的 结果 赋值 集合 。 

WR V=v 在 动作 act 的 结果 列表 上 ， 或 者 act 的 结果 列表 上 没有 提 到 特征 V， 并且 在 
执行 动作 act 之 前 V 的 值 为 wu， 那么 执行 动作 act 后 原始 特征 V 的 值 为 w。 每 次 的 非 原 始 特 
征 值 可 以 通过 原始 特征 值 导出 。 

当 变 量 是 布尔 型 时 ， 将 结果 分 为 删除 表 (delete list)( 值 为 假 的 变量 集合 ) 和 添加 表 (add 
list)( 值 为 真 的 变量 集合 ) 。 

【 例 8-5] 例 8-1 中 ，Rob 拿 起 咖啡 的 动作 (xc) 有 如 下 STRIPS 表示 : 

先决 条 件 : Less rhc] 

影响 : [rhc] 

也 就 是 说 ， 机 器 人 必须 在 咖啡 店 ， 并 且 没 有 咖啡 。 该 动作 之 后 ， 得 到 rhc ( 即 rhe= 
true), ， 而 其 他 的 特征 值 没 有 受到 该 动作 的 影响 。 < 

【 例 8-6) 递 咖啡 的 动作 (dc) 可 以 定义 为 : 

先决 条 件 : Loff» rhc] 
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影响 : (rhc, swe] 

机 器 人 在 办 公 室 并 且 身 上 有 了 咖啡 时 可 以 递 咖啡 .不管 Sam 想 不 想 要 咖啡 它 都 可 以 递 
咖啡 。 如 果 在 该 动作 之 前 Sam 想 要 咖啡 ,那么 之 后 Sam 就 不 想 要 了 。 因 此 ， 动 作 的 结果 
使 得 RHC= false 目 SWC= false. < 

基于 特征 的 表示 方法 相对 于 STRIPS 表示 法 更 强大 ， 因 为 它 可 以 表示 STRIPS 中 所 有 
可 以 表示 的 内 容 。 但 是 却 相 对 更 宛 长 ， 因 为 它 需 要 显 式 的 框架 公理 ， 而 这 些 公理 是 隐 含 在 
STRIPS 表示 中 的 。 

某 一 动作 集合 的 STRIPS 表示 可 以 转化 成 基于 特征 的 表示 ， 如 下 所 示 。 如 果 动 作 act 
的 结果 列表 为 Le: s e], STRIPS 表示 等 价 于 因果 规则 : 

è; + acl 

这 个 动作 使 得 所 有 e 为 真 ， 而 框架 规则 、 

cc Aact 

其 中 的 每 个 条 件 c 都 不 包含 结果 列表 里 的 任 一 变量 。 这 两 个 表示 法 中 ， 每 个 动作 的 先 
决 条 件 都 是 一 样 的 。 

有 条 件 的 影响 (condition effect) 是 动作 的 一 个 影响 ， 它 依赖 于 其 他 特征 的 值 。 基 于 特 
征 的 表示 法 可 以 指定 条 件 影响 ， 而 STRIPS 表示 法 却 不 能 直接 表示 这 些 。 

【 例 8-7】 考虑 动作 m 的 表示 方法 。mc 的 结果 取决 于 执行 动作 前 机 器 人 的 位 置 。 

基于 特征 的 表示 如 例 8-4 所 示 。 

为 了 用 STRIPS 表示 法 表示 动作 mc， 构造 了 多 维 动作 (不 同 于 先前 初始 值 为 真 的 动作 )。 
例如 ，?rnc_cs( 从 咖啡 店 顺 时 针 移 动 ) 的 先决 条 件 是 RLoc=cs, 结果 是 RLoc=off 。 < 


8.1.4 初始 状态 和 目标 


在 传统 的 规划 问题 中 ， 世 界 是 完全 可 观察 和 确定 的 ， 初 始 状态 通过 指定 初始 时 刻 每 个 
特征 的 值 来 定义 。 

有 两 类 目标 : 

。 实现 目标 (achievement goal): 最终 状态 的 命题 必须 为 真 。 

。 维护 目标 (maintenance goal); Agent 经 过 的 每 个 状态 必须 为 真 命题 。 这些 通 常 是 

安全 目标 (safety goal) 远离 不 好 状态 的 目标 。 

也 有 一 些 其 他 类 型 的 目标 ， 比 如 瞬时 目标 (在 规划 中 的 某 处 必须 实现 ,但 是 不 需要 维持 到 
最 后 ) 或 者 资源 目标 (例如 希望 消耗 最 少 的 能 量 或 者 运行 时 间 ) 等 。 


8.2 前 向 规划 


确定 性 的 规划 (plan) 是 从 一 个 给 定 的 初始 状态 到 达 某 一 目标 (goal) 的 动作 序列 。 确 定 
性 的 规划 器 Cplanner) 是 能 够 产生 规划 的 问题 求解 程序 。 规 划 程序 的 输入 是 初始 的 世界 描 
述 、Agent 的 可 行动 作 说 明 以 及 目标 描述 。 说 明 中 包括 动作 的 先决 条 件 和 影响 。 

其 中 一 种 最 简单 的 规划 策略 是 把 规划 问题 看 成 是 状态 空间 图 中 的 一 个 路 径 规 划 问 题 。 
在 状态 空间 图 中 ， 节 点 表示 状态 ， 弧 表示 从 一 个 状态 转移 到 另 一 个 状态 时 所 对 应 的 动作 。 
一 个 状态 s 的 所 有 出 弧 对 应 这 个 状态 下 可 以 执行 的 所 有 的 合法 动作 。 也 就 是 说 ， 对 每 个 状 
AS s 以 及 状态 下 先决 条 件 为 真 的 每 个 动作 a 都 有 一 条 对 应 的 弧 ， 并 且 结 果 状 态 并 不 破坏 
维护 目标 。 规 划 是 从 初始 状态 到 达 目 标 状态 (满足 实现 目标 的 状态 ) 的 一 条 路 径 。 

前 向 规划 器 (forward planner) 是 指 从 状态 空间 图 的 初始 状态 开始 搜索 直到 到 达 一 个 目 
标 状 态 (满足 目标 描述 的 状态 )。 它 可 以 使 用 第 3 章 介 绍 的 任何 一 种 搜索 策略 进行 搜索 。 
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【 例 8-8] 图 8-2 表示 的 是 搜索 空间 的 一 部 分 ， 其 初始 状态 为 : Rob 在 咖啡 店 ，Rob 
没有 咖啡 ，Sam 想 要 咖啡 ， 收 发 室 有 邮件 ，Rob 身上 没有 邮件 。 不 论 目标 状态 如 何 ， 搜 索 









空间 都 是 一 样 的 。 
cs=W mE -一 — 
lab= 实 验 室 
rhc=Robot 有 咖啡 


《csy rhe, swe, mw, rhm> 


mc 


<off, rhe, swe, mw, rhm> 


de 


<off, rhe, swe, mw, rhm> 


<lab, rhe, swe, mw, rhm> 
<es, rhc, swe, mw, rhm> 


8-2 ”状态 空间 规划 程序 的 部 分 搜索 空间 < 


使 用 前 向 规划 程序 不 同 于 产生 显 式 的 基于 状态 的 动作 表示 ， 因 为 图 的 相关 部 分 可 以 从 
动作 的 表示 中 动态 产生 。 

通过 一 个 完整 的 搜索 策略 ， 例 如 带 有 多 路 径 剪 枝 或 者 迭代 深化 搜索 的 A* 算法 ， 一定 
能 够 找到 一 个 解 。 搜 索 空 间 的 复杂 度 由 状态 空间 图 的 向 前 分 支 因子 定义 。 分 支 因 子 是 任 一 
状态 下 所 有 可 能 动作 的 集合 ， 可 能 非常 大 。 对 于 简单 的 机 器 人 传送 领域 ， 初 始 状态 时 分 支 
因子 是 3， 其 他 情况 下 至 多 是 4。 领 域 空间 变 大 时 ， 分 支 因 子 增 大 ， 这 会 导致 搜索 空间 爆 
炸 。 找 到 某 种 好 的 启发 式 方法 可 能 会 降低 复杂 度 ( 见 习题 8. 6)， 但 是 这 个 启发 式 算 法 必须 
足够 好 并 且 能 够 克服 组 合 爆炸 问题 。 

一 个 状态 可 以 表示 为 : 

(a) 完 整 的 世界 描述 ， 即 对 每 个 原始 命题 的 赋值 或 者 作为 定义 状态 的 一 个 命题 。 

(b) 从 菜 个 初始 状态 出 发 的 一 条 路 径 ， 即 从 初始 状态 到 达 该 状态 的 一 个 动作 序列 。 这 
样 ， 未 来 的 状态 可 以 从 指定 动作 结果 的 公理 中 推导 出 来 。 

为 每 个 被 创造 的 世界 计算 一 个 全 新 的 世界 描述 ,或 者 计算 一 个 世界 必要 时 的 组 成 ， 这 
两 者 的 区 别 相当 于 表达 (a) 与 表达 (b) 间 的 区 别 。(b) 使 用 的 空间 相对 较 小 (特别 是 针对 一 个 
复杂 的 世界 描述 ) ， 而 且 可 以 更 快 地 创建 一 个 新 节点 ， 但 是 在 确定 任 一 给 定 世界 的 未 来 情 
况 时 比较 慢 。(b) 还 有 一 个 缺陷 ， 就 是 在 确定 两 个 状态 是 否 一 致 时 比较 耗 时 (例如 ， 循 环 检 
测 或 多 路 径 剪 枝 ) 。 

作为 一 个 前 向 搜索 方法 ， 我 们 已 经 介绍 了 状态 空间 搜索 ， 但 是 也 可 以 从 满足 目标 的 状 
态 集合 向 后 进行 搜索 。 然 而 初始 状态 通常 是 完全 可 确定 的 ， 所 以 前 沿 可 从 单一 的 状态 开 
始 。 但 目标 通常 不 能 完全 指定 一 个 状态 ， 以 致 将 会 有 很 多 目标 状态 满足 目标 。 这 就 意味 
着 ， 前 沿 状态 空间 初始 化 时 会 非常 大 。 因 此 ， 状 态 空 间 的 向 后 搜索 经 常 是 不 切实 际 的 。 
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8.3 回归 规划 


在 不 同 的 搜索 空间 上 进行 搜索 往往 会 取得 更 好 的 效果 ， 在 该 搜索 空间 内 节点 不 是 状态 
而 变 成 要 实现 的 目标 。 一旦 将 这 个 问题 转化 为 一 个 搜索 问题 ， 便 可 以 使 用 第 3 章 的 任何 一 
种 算法 。 我 们 只 考虑 实现 目标 而 不 考虑 维护 目标 (见习 题 8. 9) 。 
回归 规划 (regression planning) 的 搜索 是 在 图 中 进行 的 ， 该 图 定义 如 下 : 
。 节点 是 一 定 要 实现 的 目标 。 一 个 目标 是 ( 某 些 ) 特 征 的 一 个 赋值 集合 。 
。 弧 相当 于 动作 。 特 别 的 ， 从 节点 & 到 8& "标记 动作 act 的 一 条 弧 ， 表 示 act 是 实现 目 
标 g 之 前 执行 的 最 后 一 个 动作 ， 而 节点 g 是 紧 接 着 act 之 前 必须 为 真 的 目标 ， 以 
便 act 之 后 g 为 真 。 
。 开始 节点 是 要 实现 的 目标 ， 假 设 它 是 特征 的 一 个 赋值 集合 。 
*。 如 果 初 始 状态 g 的 所 有 元 素 的 值 为 真 ， 那 么 搜索 的 目标 条 件 goaL(g) 为 真 。 
已 知 一 个 节点 表示 目标 g， 对 于 如 下 动作 act, 的 邻居 节点 是 存在 的 : 
。 act 是 可 能 的 (possible) : act 是 可 能 会 被 执行 的 ， 并 且 act 执行 之 后 g 为 真 。 
。 act AAA (useful): act 能 实现 部 分 g。 
沿 着 带 有 动作 act 弧 标 记 的 目标 g 的 邻居 节点 是 g'， 由 最 弱 先 决 条 件 定义 。 在 动作 
act 之 后 目标 g 采用 的 最 弱 先 决 条 件 (weakest precondition) 是 一 个 这 样 的 目标 g': 
。 act 之 前 g 为 真意 味 着 紧 接 着 act 之 后 g 为 真 。 
。 g 是 “最 弱 的 "， 即 是 任何 满足 第 一 条 件 的 命题 必须 隐 舍 g' 。 这 个 排除 了 一 些 不 必 
要 的 条 件 ， 如 先决 条 件 中 一 些 不 必要 的 条 件 。 
如 果 对 于 给 定 的 任 一 变量 至 多 赋 一 个 值 ， 那 么 变量 的 一 个 赋值 集合 是 相 容 的 (consist- 
ent) 。 也 就 是 说 ， 如 果 给 任何 一 个 变量 赋 两 个 不 同 的 值 那 么 就 会 是 不 相 容 的 。 
假设 考虑 目标 节点 8 一 {Xi 一 和 ，…，X, 一 如)}。 已 知 基于 特征 的 动作 表示 方法 ， 考 虑 
计算 一 个 节点 的 邻居 节点 。 如 果 存 在 一 个 因果 规则 执行 动作 act 获得 XX; 二 wv;， 那 么 动作 
act 是 有 用 的 。 弧 act 上 这 个 节点 的 邻居 节点 是 命题 : 
precondition(act) A body(X; =v; ,act) A+ A body(X,, 一 wyact) 
body(X; 二 v，act) 是 一 个 规则 实体 中 变量 的 赋值 集合 ， 这 个 规则 指定 动作 act 之 后 X: 一 
vu 为 真 。 如 果 对 于 某 些 i 没有 对 应 的 规则 ， 或 者 命题 是 不 相 容 的 ( 即 对 一 个 变量 赋予 不 同 的 
值 ) ， 则 没有 该 邻居 。 注 意 ， 如 果 同 一 动作 有 多 个 可 行 的 规则 ， 那 么 就 会 存在 多 个 邻居 。 
对 于 STRIPS #7, WFR THK. WRX =v, 是 动作 act 的 结果 ， 则 act 对 于 解 
决 g 是 非常 有 用 的 。 除 非 对 于 act 存在 着 结果 X, =v, Ae PRX =v, HP v xv, 
那么 动作 act 是 可 能 发 生 的 。 执 行动 作 act 之 前 ，act 的 先决 条 件 和 任何 通过 act 不 能 达到 
的 X, 一 必 ， 都 必须 被 保留 。 
这 样 ， 只 要 其 为 相 容 的 ， 弧 ac 上 上 目标 g 的 相 邻 节点 为 : 
precondition (act) U (g\ef fects (act )) } 
【 例 8-9】 假设 目标 是 实现 srwc， 开 始 节点 是 Lsrec]。 如 果 在 初始 状态 时 就 为 真 ， 则 规 
划 终 止 。 否 则 ， 选 择 一 个 动作 来 实现 swc。 这 种 情况 下 ， 只 有 动作 dc 满足 条 件 。 而 dc 的 
FERRE off Arheo, AlkA—-RM: [swe], Loff, rhc] iH dc. 
考虑 节点 [of ，rhc]。 有 两 个 动作 能 够 实现 of， 即 mc_cs 和 mcc_lab。 有 一 个 动作 能 
够 实现 rhc， 即 puc。 然 而 ，puc 有 一 个 先决 条 件 cs Arhe, 但 cs 与 off 是 不 相 容 的 (因为 变 
量 RLoc 有 不 同 的 赋值 ) 。 所 以 puc 不 是 最 后 一 个 可 能 动作 ， 即 执行 动作 puc 之 后 不 可 能 实 


236 ”第 三 部 分 ”学习 与 规划 


现 条 件 L[o 矿 rhe]. 

图 8-3 显示 了 前 两 层 搜索 空间 (没有 多 路 径 剪 枝 或 者 循环 检测 )。 可 以 注意 到 ， 无 论 初 
始 状态 是 什么 ， 搜索 空间 都 是 一 样 的 。 开 
始 状 态 有 两 个 角色 ， 一 个 是 停止 条 件 ， 一 

359] 个 是 启发 式 算 法 的 一 个 源头 。 < 

下 面 这 个 例子 展示 了 回归 规划 是 如 何 
确定 最 后 一 个 动作 的 。 

【 例 8-10} 假设 目标 是 Sam 不 想 要 咖 
WE, PLA AS EA mee : [swe. rhc]。 最 后 
一 个 动作 不 可 能 是 dc 来 实现 swc ， 因 为 de 
会 实现 rhc 。 最 后 一 个 动作 一 定 是 puc 来 实 





现 rhc。 所 以 结果 目标 是 [swc，cs]。 同 样 ， 图 8-3 回归 规划 器 的 部 分 搜索 空间 
这 个 目标 之 前 的 最 后 一 个 动作 也 不 能 实现 swc， 因 为 它 有 一 个 先决 条 件 off, 而 off 和 cs 
是 不 兼容 的 。 因 此 ， 倒 数 第 二 个 动作 一 定 是 一 个 移动 动作 以 到 达 cs. 4 


回归 规划 存在 一 个 问题 : 某 个 目标 可 能 是 不 可 达 的 。 确 定 某 一 目标 集合 是 否 是 可 达 的 
通常 难以 从 动作 的 定义 中 推断 出 来 。 例 如 ， 你 应 该 知道 一 个 物体 不 可 能 同时 在 两 个 不 同 的 
地 点 。 有 时 候 这 些 并 不 能 明确 的 表示 出 来 而 只 能 隐 含 在 动作 的 结果 中 ， 而 事实 上 一 个 物体 
初始 时 只 能 在 一 个 位 置 上 。 要 实行 一 致 性 前 枝 ， 回 归 规 划 程 序 可 以 使 用 领域 知识 对 搜索 空 
间 进 行 修剪 。 

循环 检测 和 多 路 径 剪 枝 可 以 并 入 回归 规划 程序 中 。 回 归 规划 程序 没有 必要 访问 同一 节 
点 来 修剪 搜索 。 如 果 某 一 节点 n 表示 的 目标 隐 含 通 向 7 的 路 径 上 的 一 个 目标 ， 那 么 就 可 以 
去 掉 节 点 2。 同样 ， 多 路 径 前 枝 见 习题 8. 11., 

即使 没有 特别 的 理由 说 明 一 个 动作 必须 排 在 男 一 个 动作 之 前 ， 回 归 规 划 程 序 也 必须 是 针对 
于 某 一 特定 的 全 序 动作 。 如 果 动 作 之 间 相 互 影响 很 小 ， 保 证 一 个 总 排序 势必 会 增加 搜索 空间 的 
复杂 性 。 例 如 ， 其 可 能 会 为 了 说 明 不 存在 成 功 的 排序 ， 而 对 一 个 动作 序列 检测 其 所 有 排序 。 


8.4 CSP 规划 


在 前 向 规划 中 ， 搜 索 受 初始 状态 的 限制 ， 只 能 使 用 目标 作为 一 个 停止 条 件 以 及 启发 式 - 
方法 的 一 个 源 。 在 回归 规划 中 ， 搜 索 受 目标 的 限制 ， 只 能 将 开始 状态 作为 一 个 停止 条 件 以 
及 启发 式 方法 的 一 个 源 。 在 同一 规划 中 ， 我 们 可 以 向 前 或 者 向 后 搜索 ， 通 过 使 用 初始 状态 
去 掉 那 些 不 可 达 的 节点 ， 使 用 目标 去 掉 那 些 无 用 的 节点 。 这 个 可 以 通过 将 一 个 规划 问题 转 
化 成 一 个 约束 满足 问题 ， 然 后 使 用 第 4 章 介 绍 的 其 中 一 个 CSP 方法 来 实现 。 

对 于 CSP 表示 ， 以 特征 的 形式 描述 动作 也 是 有 用 的 ， 这 里 的 特征 即 对 动作 和 状态 的 
一 个 抽象 表示 。 表 示 动 作 的 特征 称 为 动作 特征 (action feature) ， 表 示 状 态 的 特征 称 为 状态 

特征 (state feature) 。 

aig 11】 对 例 8-1 中 的 动作 进行 建 模 的 另 一 方法 是 : 每 一 步 ，Rob 可 以 选择 

是 否 拿 起 咖啡 。 令 PUC 是 一 个 布尔 变量 ,机 器 人 拿 起 咖啡 时 为 真 。 

。 是 否 递 送 咖啡 。 令 DelC 是 一 个 布尔 变量 ， 机 器 人 递送 咖啡 时 为 真 。 

。 是 否 取 邮件 。 令 PUM 是 一 个 布尔 变量 ， 机 器 人 取 邮 件 时 为 真 。 

。 是 否 递 邮件 。 令 DeM 是 一 个 布尔 变量 ， 机 器 人 递 邮件 时 为 真 。 

。 是 否 移 动 。Move 是 定义 域 {mc，mcc，nm}) 上 的 一 个 变量 ， 依 次 表示 Rob 是 顺 时 

针 移动 、 逆 时 针 移 动 还 是 不 移动 。 < 
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要 将 规划 问题 转化 成 一 个 CSP 问题 ， 首 先 需要 选择 一 个 固定 的 时 域 (horizon) ， 即 规 
划 执 行 的 时 间 步 数 。 假 设 这 个 值 是 上 ，CSP 有 如 下 变量 : 
。 每 一 时 刻 每 个 状态 特征 对 应 一 个 变量 ， 时 间 步 从 0 到 有。 如 果 有 个 特征 ， 就 有 


n(k& 十 1) 个 这 样 的 变量 。 
每 一 时 刻 每 个 动作 特征 对 应 一 个 变量 ， 时 间 步 从 0 到 一 1]。 这 些 变 量 称 为 动作 变量 。 
t 时 刻 的 动作 表示 这 个 动作 使 得 Agent 从 时 刻 上 时 的 状态 转移 到 时 刻 + 十 1 时 的 状态 。 


存在 以 下 几 种 约束 : 


状态 约束 (state constraint) ， 同 一 时 间 步 内 变量 间 的 约束 。 这 些 可 以 包括 对 状态 的 
自然 约束 或 者 可 以 确保 禁止 那些 破坏 维护 目标 的 状态 。 

先决 条 件 约束 (precondition constraint) ， 时 刻 上 状态 变量 与 动作 变量 之 间 的 约束 ， 
即 指定 某 一 状态 下 哪些 动作 是 可 能 的 约束 。 

影响 约束 (effect constraint), Af Al 1 的 状态 变量 、 时 刻 t 的 动作 变量 以 及 时 刻 z 十 1 
的 状态 变量 之 间 的 约束 ， 是 根据 上 时 刻 的 动作 以 及 状态 约束 1 十 1 时 刻 状态 变量 的 
值 的 约束 。 

动作 约束 (action constraint), ， 指 定 哪 些 动 作 不 能 同时 发 生 。 有 时 把 这 些 称 为 互 斥 
现象 或 者 互 斥 约束 (mutex constraint) 。 

初始 状态 约束 (initial-state constraint) ， 对 初始 状态 的 约束 (时 刻 0)。 这 些 约束 限 
制 了 初始 状态 是 Agent 的 当前 状态 。 如 果 只 有 一 个 初始 状态 ， 那 么 它 可 以 表示 成 
时 刻 0 状态 变量 的 一 个 域 约束 集合 。 

目标 约束 (goal constraint)， 限 制 了 最 终 状 态 必须 是 一 个 能 够 满足 实现 目标 的 状 
态 。 这 包括 最 后 一 步 的 目标 是 否 是 指定 值 ， 但 这 也 可 以 是 更 一 般 的 约束 一 一 例如 ， 
是 否 两 个 变量 的 值 必须 一 样 。 


【 例 8-12] 图 8-4 是 使 用 CSP 表示 的 某 机 器 人 传送 系统 ， 其 中 规划 时 域 为 2。 有 三 组 
状态 变量 : 时 刻 0 的 初始 状态 ; 时 刻 1 的 状态 ; 时 刻 2 的 最 终 状 态 。 还 有 时 刻 0 和 时 刻 1 
的 动作 变量 。 





State, Action, State, Action, State, 
Move-Rob 的 移动 
RLoc-Rob 的 位 置 
REC-Rob 有 咖啡 PUC,-RobR wie 
SCr-Sam 想 要 咖啡 DelC-Rob 递 匣 罪 
MW -F het PUM-Rob 取 邮件 
RHM -Rob 有 邮件 DelM-Robi hb FE 


8-4 规划 时 域 为 2 的 传送 机 器 人 的 CSP 规划 
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在 这 个 例子 中 没有 域 约 束 。 若 在 这 个 领域 以 下 内 容 为 真 ， 你 可 以 声明 一 个 约束 : Rob 
不 能 同时 拿 着 咖啡 和 邮件 ， 或 者 是 当 有 邮件 等 着 的 时 候 Rob 不 能 拿 着 邮件 。 这 个 例子 中 不 
包含 这 些 。 

动作 左边 的 约束 是 先决 条 件 约束 ， 指 定 动作 变量 可 以 取 什么 值 ， 即 对 每 个 动作 变量 来 
说 什么 动作 是 可 行 的 。 变 量 Move, 没有 先决 条 件 ， 即 所 有 的 移动 动作 在 任何 状态 下 都 是 可 
行 的 。 变 量 PUM,, TEE Rob 是 否 可 以 取 邮 件 ， 它 取决 于 i 时 刻 Rob 的 位 置 ( 即 RLoc; 的 
值 ) 以 及 i 时 刻 是 否 有 邮件 在 等 待 (MW;)。 假 设 Agent 可 以 选择 不 执行 一 个 动作 ， 那么 一 
个 动作 的 否定 总 是 可 行 的 (例如 ，PUM; = false， 写 成 ui)。 只 有 当 位 置 是 mr Jf MW, = 
true 时 ， 动作 PUM: =true, B) pum; 是 可 行 的 。 当 一 个 动作 的 先决 条 件 是 组 合 条 件 时 ， 它 
可 以 写成 一 个 约束 集合 ， 因 为 CSP 中 的 约束 是 隐 含 相连 的 。 如 果 先 决 条 件 是 更 复杂 的 命 
题 ， 它 可 以 表示 为 包括 多 于 两 个 变量 的 约束 。 

时 刻 1 以 及 时 刻 2， 状 态 变量 左边 的 约束 表示 状态 变量 的 值 是 前 一 个 状态 和 动作 的 函 
数 。 例 如 ， 下 面 是 RHC;、DC;、PUC; 以 及 下 一 状态 机 器 人 是 否 有 咖啡 尽 ECi+: 间 的 约束 : 








这 个 表 表 示 的 约束 与 例 8-4 规则 中 的 约束 相同 。 | 

LS 8-13) 考虑 寻找 某 规划 使 Sam 可 以 拿 到 咖啡 ， 规 划 时 域 为 2。 

初始 时 ，Sam 想 要 咖啡 但 是 机 器 人 没有 咖啡 ， 可 以 表示 为 两 个 域 约 束 : SWC, 和 
RHC,。 目 标 是 Sam 不 再 想 要 咖啡 ， 可 以 表示 为 域 约 束 SWC: 一 false。 

在 这 个 网 络 上 运行 弧 是 一 致 性 ， 其 结果 为 RLoc = 一 cs( 机 器 人 必须 在 咖啡 店 开 始 )， 
PUC,=true( 机 器 人 最 初 拿 起 咖啡 ) Moves = 二 mc( 机 器 人 必须 向 办 公 室 方向 移动 )，DC = 
true( 机 器 人 必须 在 时 刻 1 送出 咖啡 ) 。 < 

CSP 表示 法 假设 规划 时 域 是 固定 的 ( 即 一 个 固定 的 步 数 ) 。 要 找到 任意 步 数 的 规划 ， 这 
个 算法 可 以 运行 k 步 (k= 二 0，1，2)， 直 到 找到 解 。 对 于 随机 局 部 搜索 算法 ， 通 过 搜索 所 有 
的 时 域 (& 从 0 到 nn)， 并 且 允 许 n 慢 慢 地 增加 ， 有 可 能 一 次 搜索 到 多 个 规划 时 域 。 当 使 用 
弧 的 一 致 性 以 及 搜索 求解 CSP 问题 时 ， 通 过 尝试 更 长 的 规划 时 域 也 可 能 不 会 获得 更 好 的 
结果 。 也 就 是 说 ， 通 过 对 为 什么 对 于 时 域 x 内 不 存在 解 的 分 析 ， 可 以 知道 对 于 多 于 nn 步 的 
范围 内 也 不 会 存在 任何 规划 。 这 使 得 在 没有 规划 时 会 暂停 规划 程序 。 见 习题 8. 12。 


8.5 偏 序 规划 


前 向 和 回归 规划 程序 在 规划 过 程 的 所 有 阶段 实行 的 都 是 动作 上 的 全 序 排序 。 而 CSP 
规划 程序 确保 执行 动作 的 具体 时 间 。 这 意味 着 ,那些 规划 程序 必须 提交 一 组 有 序 的 动作 ， 
当 把 这 些 动作 加 入 一 个 偏 序 规划 时 ， 这 些 动作 是 不 能 同时 发 生 的 ， 即 使 没有 具体 的 原因 把 
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一 个 动作 放 在 另 一 个 动作 之 前 。 

偏 序 规划 (partial-order planner) 程 序 的 思想 是 动作 之 间 有 一 个 偏 序 排序 ， 并 且 执 行 时 
只 提交 动作 间 的 一 个 排序 。 有 时 也 称 为 非 线 性 规划 程序 (non-linear planner)， 其 实 这 个 说 
法 用 词 并 不 准确 ， 因 为 这 些 规划 程序 经 常 产 生 一 个 线性 规划 。 

偏 序 关 系 是 一 种 小 于 关系 ， 它 是 传递 的 且 不 对 称 的 。 偏 序 规划 是 一 个 动作 集合 连同 一 
个 偏 序 排序 。 这 个 偏 序 表示 的 是 动作 间 的 “之 前 (before)” 关 系 。 这 样 ， 任 何 一 个 符合 偏 序 
排序 的 动作 的 总 排序 集合 ， 都 能 从 初始 状态 求解 目标 状态 。 在 偏 序 中 如 果 动 作 acto 在 act, 
之 前 ， 就 记 为 acto 二 acti 。 这 意味 着 动作 act) 必须 发 生 在 act, 之 前 。 

为 了 统一 起 见 ， 把 start 和 finish 均 看 成 是 一 个 动作 。 其 中 ，start 初始 状态 时 为 真 ， 
finish 的 先决 条 件 是 要 求解 的 目标 。 伪 动作 start 在 所 有 其 他 动作 之 前 ，finish 在 所 有 其 他 
动作 之 后 。 这 样 ， 算 法 就 不 需要 考虑 初始 状态 和 目标 状态 的 特殊 情形 了 。 当 finish 的 先决 
条 件 满 足 时 ， 目 标 也 就 实现 了 。 

一 个 既 非 finish 又 非 start 的 动作 ， 将 会 出 现在 一 个 偏 序 规划 中 来 作为 某 一 动作 的 先 
决 条 件 。 规 划 中 动作 的 先决 条 件 或 者 初始 状态 时 为 真 ， 由 start 来 完成 ， 或 者 由 规划 中 的 
某 个 动作 来 完成 。 

我 们 必须 保证 为 动作 所 指定 的 先决 条 件 可 以 完成 。 规 划 中 动作 act, 的 每 一 个 先决 条 件 
P 都 会 有 一 个 动作 acto 与 它 相 关 ， 所 以 动作 acto 实现 acti 的 先决 条 件 已 。 表 示 为 一 个 三 元 
组 lact。 ，P，acti)， 它 是 一 个 因果 关系 (causal link)。 这 个 偏 序 关系 指定 动作 act) REE 
act, 之 前 ， 记 为 act, 二 acti 。 任 何其 他 的 使 得 P 为 假 的 动作 A 要 么 发 生 在 acto ZH, BA 
REE act; 之 后 。 

偏 序 规划 的 操作 步骤 大 致 如 下 : 以 动作 start, finish 以 及 偏 序 start<finish 开始 。 规 
划 程 序 维持 以 下 议程 : P, OHRA, HP, A 是 规划 中 的 一 个 动作 ，P 是 必须 实现 的 
A 的 一 个 先决 条 件 原 子 。 初 始 时 ， 议 程 包含 对 4G，finish)， 其 中 G 是 在 目标 状态 时 必须 为 
真 的 一 个 原子 。 

在 规划 过 程 的 每 个 阶段 ， 从 议程 中 选 出 4(G，acnh 对， 其 中 PEJE act, 的 先决 条 件 。 
然后 选择 一 个 动作 acto 来 实现 了 P。 这 个 动作 要 人 么 已 经 在 这 个 规划 中 ， 例如， 有 可 能 是 动作 
start; 要 么 是 即将 添加 到 规划 中 的 一 个 新 动作 。 这 个 偏 序 中 动作 acto 必须 发 生 在 act, 之 
前 。 然 后 增加 一 个 因果 关系 来 记录 : acto 实现 acti 的 先决 条 件 已 。 规 划 中 删除 P 的 任何 动 
作 必 须发 生 在 act) 之 前 或 者 act 之 后 。 如 果 act 是 一 个 新 动作 ， 那 么 就 将 它 的 先决 条 件 
添加 到 这 个 规划 中 。 程 序 持续 进行 直到 议程 为 空 。 

这 是 一 个 非 确 定 的 过 程 ，“choose( 选 择 )” 以 及 “either…or( 或 者 …… 或 者 ) ”形成 了 必须 
搜索 的 选择 ， 有 两 个 选择 需要 搜索 : 

。 选择 哪个 动作 来 实现 G。 

。 删除 G 的 动作 是 发 生 在 acto 之 前 还 是 acti 之 后 。 

图 8-5 给 出 了 偏 序 规划 算法 。 

函数 add_const(actp<act,, Constraints) #4 HK acto Lact, 添加 到 Constrains， 并 返回 
约束 集 。 如 果 act,<act, 与 Constrains 不 兼容 ， 那 么 返回 值 为 假 。 有 许多 方法 可 以 执行 这 
个 函数 (见习 题 8. 13) 。 

函数 protect. lacte, G, actı), A), RWEBS AAact., BA A 天 ach 以 及 A 是 否 删 
除 G。 如 果 是 这 样 ， 要 么 添加 A 二 aci。， 要 么 添加 aci <A 到 该 约束 集合 中 。 这 是 一 个 已 
进行 搜索 的 非 确定 性 选择 。 


363 


365 


240 第 三 部 分 “学习 与 规划 





1; non-deterministic procedure PartialOrderPlanner(Gs) 
2: Inputs: 

3: Gs: 要 完成 的 原子 命题 集合 

4: Output; 

5: 为 完成 Gs 的 线性 规划 

6: Local; 

7: Agenda: (P, AWA. P ERF, A 是 动作 
8: Actions; 当前 计划 的 动作 集合 


9; Constraints: 动作 上 的 暂时 的 约束 集合 
10; CausalLinks: lacta, P, act ) 元 组 的 集合 
1l; Agenda *={(G, fnish): GEGs} 

12; Actions *=({start, fnish} 
13: Constraints *={ start< fnish) 
14: CausalLinks: ={} 





15: repeat 

16; 从 Agenda 中 选择 并 且 移 除 (G，act,) 

17; either 

18: 选择 act, € Actions, 该 acto 完成 G 

19; or 

20: 选择 acto E Actions, Ù% act, 完成 G 

21; Actions := Actions U (act, } 

22; Constraints *=add_const(start<act,, Constraints) 

23: for each CLE CausalLinks do 

24: Constraints := protect(CL, acta, Constraints) 

25: Agenda ‘=AgendaU{(P, acts): 卫 是 acts 的 失 决 条 件 } 
26; Constraints *=add_const(act,<act,, Constraints) 

27; CausalLinks := CausalLinksU {(act,, G, act,)} 

28; for each AE Actions do 

29: Constraints := protect lact, G, actı), A, Constraints) 


30; until Agenda={} 
31: return 符合 约束 的 动作 的 整体 顺序 





8-5 ” 偏 序 规划 算法 


【 例 8-14】 考虑 目标 swc 人 mw， 初始 状态 为 : RLoc=lab, swe, rhc, mw, rhm, 
初始 议程 为 : 

(swe y finish) , mw, finish) 

假设 选择 (seec，zish) 从 议程 中 删除 。 存 在 一 个 动作 可 以 实现 srwuc， 即 送出 咖啡 de， 


其 先决 条 件 是 o 太 和 rhc。 该 循环 (repeat loop) 结 束 后 ， 议 程 包括 : 
(off dc) , (rhe dc) . (mw, finish) 


Wy oe FE { start< finish, start<dc, de< finish), #F#E A RRR (de, swe, finish), 
这 个 因果 关系 意味 着 不 允许 某 个 发 生 在 de 之 后 或 者 finish 之 前 的 动作 取消 swc 。 

MINE PE (mw, finish). BYE pum 能 够 实现 它 ，pum 的 先决 条 件 是 mw 和 
RLoc = 二 mr。 将 因果 关系 (pum，mw，finish) 添 加 到 因果 关系 集合 中 ， 并 将 (mw，pum) 和 
《mr，pum) 添 加 到 议程 中 。 

假设 选择 (mw，pum)， 动 作 start 可 以 实现 mw， 因 为 mw 初始 时 为 真 。 将 因果 关系 
(start，mw，pum) 添 加 到 因果 关系 集合 中 。 议 程 中 不 做 任何 添加 。 

TRE, de 与 pum 之 间 没 有 强制 顺序 关系 。 

BRANE PR off, de). APMIS MAE WSR off: ms_cs， 先 决 条 件 是 cs; 
mcc_lab， 先 决 条 件 是 /ap。 算 法 搜索 这 些 选项 。 如 果 选 择 了 mc_cs， 就 添加 因果 关系 《mec_cs， 
off, dc). 
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当 使 用 移动 动作 来 实现 (mr，pum) 时 ， 就 会 首次 破坏 因果 关系 。 这 个 动作 破坏 了 因果 
关系 《mc_cs，0f，dc)， 它 必须 发 生 在 dc 之 后 或 者 mc_cs 之 前 (机 器 人 送 完 咖啡 后 再 去 收 
RB). PE 

前 面 的 算法 掩盖 了 一 个 重要 的 细节 。 一 个 规划 中 有 时 候 需 要 执行 某 个 动作 多 次 。 这 种 
情况 下 ， 前 面 的 算法 就 不 起 作用 了 ， 因 为 它 试 图 去 找到 发 生 在 同一 时 刻 的 动作 实例 间 的 一 
个 偏 序 关 系 。 为 了 解决 这 个 问题 ， 排 序 应 该 是 动作 实例 间 而 不 是 动作 本 身 之 间 的 关系 。 要 
实现 这 一 点 ， 我 们 为 一 个 动作 的 每 个 实例 分 配 一 个 索引 ， 然 后 对 这 个 动作 实例 的 索引 进行 
排序 而 不 是 动作 本 身 。 这 个 留 作 练习 。 


8.6 本 章 小 结 


。 规划 是 选择 一 个 动作 序列 以 实现 某 个 目标 的 过 程 。 

” 动作 是 一 个 状态 到 男 一 个 状态 的 一 个 函数 (状态 转移 函数 )。 一 些 表 示 方 法 都 是 从 状态 的 表示 中 对 
其 结构 进行 开发 的 。 特 别 的， 基于 特征 的 动作 表示 法 表示 的 就 是 在 前 一 状态 下 必须 为 真 使 得 某 特 [366 
征 在 下 一 个 状态 中 获得 一 个 值 。STRIPS 表示 法 是 基于 动作 的 表示 ， 它 指定 动作 的 结果 。 

。 可 以 使 用 不 同 的 规划 算法 将 规划 问题 转化 为 搜索 问题 。 


8.7 参考 文献 及 进一步 阅读 


STRIPS 表示 法 是 由 Fikes 和 Nilsson[1971] 提 出 的 。 

目前 很 多 人 在 研究 如 何 规划 动作 序列 。Yang[1997] 出 版 了 一 本 教材 ， 对 规划 进行 了 概述 。 一 些 经 典 
的 论文 可 以 参看 Allen, Hendler 和 Tate[1990] 。 

前 向 规划 已 经 成 功 地 用 于 积木 世界 规划 中 ， 其 中 一 些 好 的 启发 式 方法 是 由 Bacchus 和 Kabanza[ 1996] 
定义 的 。( 见 习题 8. 6。) 

回归 规划 最 早 由 WaldingerL1977j] 提 出 。 而 最 弱 先 决 条 件 的 使 用 是 基于 Dijkstra[L1976] 的 工作 ， 用 它 
来 定义 命令 式 编程 语言 的 语义 。 这 应 该 不 会 太 奇 怪 ， 因 为 命令 式 语 言 的 命令 是 改变 计算 机 状态 的 动作 。 

CSP 规划 是 基于 图 规划 [Blum 和 Furst，1997] 和 表 规 划 [Kautz 和 Selman，1996] 的 。Lopez 和 Bac- 
chus[L2003] 以 及 van Beek 和 Chen[1999] 也 曾 研究 过 将 规划 看 成 是 一 个 CSP 问题 。Bryce 和 Kambhampati 
[2007] 给 出 了 近期 的 研究 现状 。 

偏 序 规划 首次 出 现在 Sacerdoti[1975] 的 NOAH 系统 中 ， 随 后 又 出 现在 TateL1977] 的 非 线性 
(NONLIN) 系 统 ，Chapman[1987] 的 调整 (TWEAK) 算 法 ， 以 及 McAllester 和 RosenblittL1991] 的 系统 非 
线性 规划 (SNLP) 算 法 中 。 参 见 WeldL1994] 对 偏 序 规划 的 综述 以 及 Kambhampati，Knoblock 和 Yang 
[1995] 对 这 些 算 法 的 比较 。 这 里 给 出 的 版 本 主要 是 SNLP( 见 习题 8. 15) 。 

参见 Wilkins[1988] 对 规划 中 实际 问题 的 探讨 ， 以 及 Weld[ 1999]，McDermott 和 Hendler[ 1995], 
Nau[L2007] 的 相关 文章 对 规划 问题 的 最 新 综述 。 


8.8 习题 


8. 1 考虑 图 8-1 的 规划 领域 。 

(a) 给 出 基于 特征 表示 的 特征 MW 和 RHM, 

Cb) 给 出 动作 取 邮 件 和 送 邮 件 的 STRIPS 表示 。 
8.2 假设 机 器 人 不 能 同时 拿 着 咖啡 和 邮件 。 给 出 两 种 方法 通过 改变 表示 这 个 规划 问题 的 CSP 来 反映 这 

个 约束 。 通 过 给 出 一 个 问题 对 其 进行 验证 ,考虑 当 机 器 人 存在 该 约 东 与 不 存在 该 约束 时 间 题 结果 的 

异同 。 367 
8.3 写 出 这 个 有 限 机 器 人 传送 世界 的 一 个 完整 描述 ， 然 后 画 出 一 个 状态 空间 表示 图 ， 其 中 至 少 包括 本 章 

讨论 的 积木 世界 中 的 两 个 动作 实例 。 注 意 ， 弧 的 数量 取决 于 动作 实例 的 个 数 。 
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8. 4 


8.5 


8.6 
8.7 


8.8 


8.9 





改变 传送 机 器 人 世界 的 表示 ( 例 8-1) ， 使 得 

(a) Agent 不 能 同时 拿 着 邮件 和 咖啡 。 

b) Agent 可 以 拿 着 一 个 盒子 ， 这 个 盒子 可 以 放置 物体 (这 样 Agen 就 可 以 拿 着 盒子 ， 而 盒子 可 以 
同时 装着 邮件 和 咖啡 ) 。 

在 一 个 例子 上 进行 测试 ， 给 出 一 个 不 同 于 原始 表示 的 解 。 

假设 我 们 必须 求解 打扫 房子 的 规划 问题 。 不 同 的 房间 有 的 可 以 擦 (使 房间 无 和 全 )， 有 的 可 以 扫 ( 使 房 

间 有 一 个 干净 的 地 板 ),， 但 如 果 机 器 人 在 某 个 房间 就 只 能 擦 或 者 扫 。 扫 地 会 使 得 房间 落 满 灰尘 ( 即 不 

是 无 尘 )。 如 果 抹 布 是 干净 的 ， 机 器 人 只 可 以 擦 一 个 房间 。 但 擦 房间 会 造成 额外 的 灰尘 ， 例如 擦 车 

库 会 使 抹布 变 脏 。 机 器 人 可 以 直接 从 一 个 房间 移动 到 另 一 个 房间 。 
假设 有 两 个 房间 : 仓库 ， 如 果 它 是 积 满 灰尘 的 ， 会 造成 额外 的 灰尘 (extra-dusty); 卧室 ， 非 额 

外 灰尘 。 有 以 下 特征 : 

。 HERWEN, Lr dusty 为 真 。 

。 当 仓 库 落 满 灰尘 时 ，Gar_dusty 为 真 。 

。 当 了 卧室 地 板 脏 时 ，Lr_dirty_floor 为 真 。 

。 当 仓 库 地 板 脏 时 ，Gar_dirty_floor HH, 

。 当 抹 布 干净 时 ，Dustcloth_clean HH, 

。 Rob_loc 表示 机 器 人 的 位 置 。 

假设 机 器 人 任何 时 刻 都 可 以 做 以 下 的 某 个 动作 : 

*。 move: 移动 到 其 他 房间 。 

。 dust_lr: RE E COL A ERD S BES RAE). 

。 dust gar: 擦 仓库 (机 器 人 在 仓库 且 仓 库 落 满 灰 持 ) 。 

。 sweep_Ir; 扫 卧 室 地 板 (机 器 人 在 卧室 ) 。 

。 sweep_gar: 扫 仓 库 地板 ( 机 器 人 在 仓库 ) 。 

(a) 给 出 dust_gar 的 STRIPS 表示 。 

(b) 给 出 Ir_dusty 的 基于 特征 表示 。 

Ce) 假设， 动作 sweep 代替 动作 sweep_lr 和 sweep_gar， 意 思 是 无 论 机 器 人 在 哪个 房间 只 是 清扫 ， 
解释 如 何 改变 先前 的 解答 来 处 理 这 个 新 的 表示 或 者 为 什么 不 能 使 用 这 个 新 表示 。 

针对 前 向 规划 程序 ， 提 出 一 个 好 的 启发 式 方法 应 用 在 机 器 人 传送 领域 ,实现 它 ， 运 行 效果 如 何 ? 

假设 你 对 动作 a 和 az 有 STRIPS 表示 ， 你 想 要 定义 混合 动作 a. a 的 STRIPS 表示 ， 也 就 是 先 执 

行动 作 wm ， 再 执行 动作 az 。 

(a) 这 个 混合 动作 的 结果 列表 是 什么 ? 

(b) 这 个 混合 动作 的 先决 条 件 是 什么 ? 假设 先决 条 件 可 以 表示 为 一 个 Variable= value 对 列表 (而 不 
是 任意 的 逻辑 公式 )。 

Cc) 使 用 例 8-1 的 传送 机 器 人 领域 ， 给 出 混合 动作 puec, me 的 STRIPS 表示 。 

(d) 给 出 混合 动作 puc, mc, dech 3 个 原始 动作 组 成 ) 的 STRIPS 表示 。 

(e) 给 出 混合 动作 mcc、puc、mc、dc( 由 4 个 原始 动作 组 成 ) 的 STRIPS 表示 。 

在 前 向 规划 中 ， 可 以 用 到 达 哪 个 状态 的 动作 序列 来 表示 一 个 状态 。 

(a) 解释 如 何 检 查 一 个 动作 的 先决 条 件 是 否 满 足 并 给 出 一 个 这 样 的 表示 。 

b) 解释 在 这 样 一 个 表示 中 如 何 执 行 循环 检测 。 你 可 以 假设 所 有 的 状态 都 是 合法 的 。( 其 他 的 程序 
已 经 确保 满足 了 先决 条 件 。) 

(im: 考虑 习题 8.7 中 的 混合 动作 ， 由 任 一 阶段 的 前 & 个 或 者 倒数 & 个 动作 组 成 。) 

解释 对 于 不 论 是 动作 的 基于 特征 表示 还 是 STRIPS 表示 ， 如 何 将 回归 规划 程序 扩展 到 包括 维护 目 

标 。( 提 示 : 考虑 当 维 护 目标 提 到 一 个 没有 出 现在 节点 中 的 特征 时 会 发 生 什 么 ,) 


8. 10 在 传送 机 器 人 领域 ， 为 回归 规划 程序 给 出 一 个 非 零 的 启发 式 函 数 和 一 个 实际 路 径 成 本 的 较 低 评估 ， 


8. 11 


是 否 可 行 ? 
解释 如 何 将 多 路 径 剪 枝 并 人 回归 规划 程序 中 。 应 该 何 时 剪 掉 节点 ? 


8. 12 


8. 15 
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对 于 CSP 规划 给 出 这 样 一 种 情况 ， 当 弧 的 搜索 一 致 性 在 某 一 规划 时 域 下 不 满足 时 ， 意 味 着 不 会 有 
长 于 该 时 域 的 解 了 。( 提 示 : 考虑 一 个 非常 长 的 时 域 ， 前 向 搜索 和 后 向 搜索 相互 不 受 影响 .) 实 
现 它 。 
要 执行 偏 序 规划 程序 中 的 函数 add_constraint(As 二 A;，Constraints)， 必 须 为 一 个 偏 序 选择 一 个 表 
示 。 以 下 是 一 个 偏 序 的 不 同 表示 ， 执 行 它们 : 
Cad 将 一 个 偏 序 表示 为 推导 排序 的 一 个 小 于 关系 集合 ， 例 如 ,表示 为 列表 [1<2, 2<4, 1<3, 
3<4, 4<5], 
Cb) 将 一 个 偏 序 表示 为 由 排序 推导 出 的 一 个 小 于 关系 集合 ， 例 如 ， 表 示 为 列表 [1 二 2, 2<4, 1< 
4, 1<3, 3<4, 1<05, 25 95 teih 
(c) RMA—ME, LRA. Hp E BMF PM—TICK, LBM PORE 之 后 的 所 有 元 素 
的 一 个 列表 。 对 每 个 正 ， 存 在 唯一 的 形式 4 下， 工 ) 。 这 样 的 一 个 例子 是 ，[(1，[2、3，4，5])， 
2 
对 于 以 上 的 每 个 表示 ， 这 个 偏 序 能 有 多 大 ? 检查 一 个 新 的 排序 的 一 致 性 有 多 容易 ? 添加 一 个 新 的 
小 于 排序 约束 有 多 容易 ? 你 认为 哪个 是 最 高 效 的 表示 ? 你 能 想 出 一 个 更 好 的 表示 吗 ? 
用 于 偏 序 规划 程序 中 的 选择 算法 并 不 十 分 复杂 。 对 选择 的 子 目标 进行 排序 可 能 是 一 种 明智 的 选择 。 
例如 ; 在 机 器 人 世界 ， 机 器 人 应 该 尽量 在 子 目标 at 之 前 实现 carrying 子 目 标 。 因 为 对 机 器 人 来 说 ， 
当 它 知道 应 该 拿 起 一 个 物体 时 尽快 地 拿 起 它 可 能 是 明智 的 。 然 而 ,机 器 人 并 不 一 定 想 移 动 到 某 个 
地 方 ， 除 非 它 正 携带 着 需要 携带 着 的 一 切 。 实 现 这 样 的 启发 式 选择 算法 。 选 择 启发 式 是 否 实际 上 
比 选择 最 后 添加 的 子 目标 更 好 ? 你 能 否 想 到 一 个 一 般 的 选择 算法 ,不 需要 知识 工程 师 对 每 一 对 子 
目标 进行 排序 ? 
SNLP 算法 与 这 里 介绍 的 偏 序 规划 程序 是 一 样 的 ， 只 是 在 protect 程序 中 ， 先 决 条 件 是 : 
A#A, HAA#A, 且 (A 删除 G 或 者 A 实现 G) 
这 个 要 求 系统 性 ， 系 统 性 意味 着 对 每 个 线性 规划 有 唯一 的 偏 序 规划 。 解 释 为 什么 系统 性 可 能 
是 也 可 能 不 是 一 件 好 事 ( 例 如 ， 讨 论 它 是 如 何 更 改 分 支 因 子 或 减 小 搜索 空间 的 )。 在 不 同 的 例子 上 
测试 不 同 的 算法 。 
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规划 就 像 在 一 个 建筑 的 周围 搭建 的 脚手架 。 当 你 建造 建筑 外 这 时 ， 脚手架 的 作用 至 关 
ER; 一 旦 建 好 了 建筑 外 充 并 开始 内 部 装修 ， 脚 手 架 就 需要 拆 挤 了 。 这 就 是 我 所 理解 的 规 
刘 。 为 顺利 完成 一 项 工作 、 规 划 工 作 必 须 经 过 深思 热 虑 ， 但 它 不 能 代 蔡 你 在 完成 工作 中 的 
每 个 细节 时 付出 的 努力 。 实 现 你 想法 的 过 程 很 少 会 与 你 的 原 有 规划 一 致 。 

一 一 Twyla Tharp[ 2003 ] 


在 上 面 的 引文 中 ，Tharp 指 的 是 舞蹈 ， 但 对 于 任何 一 个 具有 不 确定 性 的 Agent 来 说 ， 
该 观点 同样 适用 。 一 个 Agent 不 能 仅仅 规划 出 一 个 顺序 的 步 又， 规划 的 结果 需要 更 加 复 
杂 。 做 规划 时 ， 必 须 考虑 到 这 种 情况 ， Agent 并 不 知道 在 它 采取 行动 时 会 发 生 什 么 。 
Agent 应 该 规划 如 何 应 对 其 所 处 环境 的 变化 。Agent 的 具体 行为 应 由 事先 的 规划 和 其 遇 到 
的 真实 环境 决定 。 

如 果 一 个 Agent 不 能 够 确切 地 知道 它 的 行动 能 够 产生 什么 影响 ， 那 么 请 考虑 一 下 它 该 
怎么 做 ? 决定 该 怎么 做 是 很 困难 的 一 件 事 ， 因 为 在 任何 时 候 ， 一 个 Agent 应 该 做 什么 需要 
依赖 于 它 在 将 来 要 做 什么 。 然 而 ， 它 将 来 要 做 出 的 行为 又 依赖 于 它 现在 的 动作 及 它 在 将 来 
观察 到 的 东西 。 

在 有 不 确定 性 的 情况 下 ， 一 个 Agent 通常 不 能 够 保证 满足 其 目标 ， 甚 至 试图 以 最 大 的 
可 能 达到 其 目标 也 可 能 变 得 不 切实 际 。 例 如 ， 一 个 目标 为 不 在 车 祸 中 受伤 的 Agent 可 能 会 
拒绝 坐 进 汽车 或 沿 着 人 行道 走路 ， 甚 至 不 会 进入 建筑 物 的 第 一 层 一 一 大 多 数 人 都 会 认为 这 
FER Agent 不 是 很 聪明 。 一 个 不 能 保证 满足 其 目标 的 Agent 的 失败 方式 多 种 多 样 ， 其 中 一 
些 相当 糟糕 。 

本 章 讨论 的 是 如 何 同时 考虑 这 些 因 素 。 

一 个 Agent 决定 要 干什么 依赖 于 三 件 事 情 : 

。 Agent 的 能 力 : Agent 必须 从 其 可 用 选项 中 选 出 一 个 。 

。 Agent 的 信念 : 你 可 能 会 试 着 解释 “这 个 世界 上 什么 为 真 "。 对 于 Agent 则 不 一 样 : 

当 它 不 知道 世界 上 什么 为 真 时 ， 它 就 只 基于 自己 的 信念 采取 动作 。Agent 根据 其 
对 外 界 的 感知 而 更 新 自己 的 信念 。 

。 Agent 的 偏好 : 当 一 个 Agent 必须 在 不 确定 环境 下 进行 推理 时 ， 它 不 仅 需 要 考虑 
最 可 能 会 发 生 什 么 ， 而 且 需 要 考虑 会 发 生 什 么 。 某 些 有 可 能 发 生 的 事情 可 能 会 造 
成 很 严重 的 后 果 。 这 里 的 术语 “目标 ”的 含义 较 第 8 章 中 的 更 丰富 ， 因 为 Agent 的 
设计 者 必须 明确 不 同 结果 间 的 平衡 关系 。 例 如 ， 一 些 行为 经 常会 产生 很 好 的 结果 ， 
但 有 时 也 会 导致 灾难 性 的 后 果 ， 那 么 它 就 必须 比较 决定 是 否 选 择 男 一 个 可 选 的 动 
E: 这 个 动作 能 够 以 较 小 的 概率 产生 好 的 结果 ,通常 只 能 得 到 一 般 的 结果 ， 但 会 
以 较 小 的 概率 导致 灾难 的 结果 。 决 策 理 论 用 来 解决 平衡 产生 期 望 的 结果 与 其 他 结 
果 的 问题 。 
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谁 来 评价 ? 


任何 一 个 计算 机 程序 或 任何 一 个 人 在 决定 采取 什么 行动 或 给 出 什么 建议 时 ， 都 会 使 用 
某 种 评价 系统 来 判定 什么 是 重要 的 ， 什 么 不 是 重要 的 。 

Alice… 继 续 问 :“ 你 能 告诉 我 应 该 选择 哪 条 路 吗 ?” 

“这 取决 于 你 想 去 哪里 。"Cat 答 道 。 

“我 不 在 意 我 会 走 到 哪里 。”Alice 说 。 

“那么 你 选 哪 条 路 都 无 关 紧 要 。”Cat 答 道 。 
Lewis Carroll(1832—1898), «Alice’s Adventures in Wonderland), 1865 





很 自然 的 ， 我 们 所 有 人 都 希望 计算 机 按照 我 们 的 评价 系统 来 工作 ， 但 它们 却 不 能 按照 
任何 一 个 人 的 评价 系统 工作 ! 如 果 你 开发 一 个 在 实验 室 工作 的 程序 ， 那 么 没有 问题 ， 它 会 
按照 人 的 希望 工作 。 此 时 程序 会 根据 设计 者 的 目标 和 评价 标准 执行 动作 ， 同 时 设计 者 也 是 
程序 的 使 用 者 。 如 果 一 个 系统 有 多 个 用 户 ， 那 你 就 必须 考虑 将 谁 的 评价 标准 植 入 程序 中 。 
如 果 一 个 公司 向 一 个 医生 销售 一 套 医 疗 诊断 系统 ， 那 么 该 系统 给 出 的 诊断 能 够 反映 社会 、 
公司 、 医 生 、 病 人 (他 们 可 能 有 非常 不 同 的 评价 标准 ) 的 评价 标准 吗 ? 它 能 够 测定 医生 或 者 
病人 的 评价 标准 吗 ? 

如 果 你 要 开发 一 个 能 给 别人 提供 一 些 建议 的 系统 ， 你 就 需要 找 出 哪些 是 符合 预期 的 ， 同 
时 也 要 找 出 他 们 的 评价 标准 是 什么 。 例 如 ， 在 一 个 医疗 诊断 系统 中 ,正确 的 诊断 过 程 不 仅 依 
赖 于 病人 的 症状 ,而 且 依 束 于 病人 优先 考虑 的 事情 。 为 了 更 好 地 了 和 解 其 所 处 的 环境 ,他们 准 
SRE-LMES? 他 们 愿意 为 了 延长 一 点 儿 生 命 而 忍受 许多 疼痛 吗 ? 他 们 准备 承受 什么 样 
的 风险 ? 对 于 一 个 建议 你 做 什么 事情 的 程序 或 人 ， 如 果 他 没有 询问 你 的 意见 ， 则 你 需要 保留 
怀疑 态度 。 作 为 能 执行 任务 或 提供 建议 的 程序 的 开发 者 ， 你 应 该 清楚 地 知道 要 在 程序 中 嵌入 
谁 的 评价 系统 。 


9.1 偏好 和 效用 


一 个 Agent 应 该 根据 其 偏好 来 决定 做 什么 。 在 本 节 ， 我 们 介绍 几 个 我 们 希望 的 偏好 的 
直观 性 质 ， 并 给 出 由 这 些 性 质 得 到 的 一 个 结果 。 我 们 给 出 的 属性 是 理性 公理 (axioms of 
rationality)， 从 它们 出 发 ， 我 们 证 明 一 个 有 关 如 何 测度 偏好 的 定理 。 你 需要 考虑 这 些 公 理 
对 于 一 个 理性 Agent 而 言 是 否 是 合理 的 ; 如 果 你 认为 它们 是 合理 的 ， 你 就 应 该 接受 由 它们 
导出 的 结果 。 如 果 你 不 接受 这 个 结果 ， 你 就 应 该 考虑 需要 放弃 哪 一 条 公理 。 

一 个 Agent 根据 其 各 个 行动 能 产生 的 结果 (outcome) 来 选择 其 行动 。Agent 所 选 行动 
产生 的 结果 是 其 偏好 的 结果 。 如 果 Agent 没有 特别 的 偏好 ， 则 Agent 做 什么 都 无 关 紧 要 。 
我 们 在 考虑 行动 产生 的 结果 时 先 不 考虑 相关 联 的 行动 所 产生 的 结果 ， 并 假设 这 些 结果 的 数 
量 是 有 限 的 。 

我 们 在 结果 上 定义 了 偏好 关系 。 假 设 o Mo, 是 两 个 结果 。 如 果 o1 的 合意 度 不 比 o 
低 ， 则 我 们 称 o 弱 偏 好 (weakly preferred) F op ， 记 为 m 二 oz。 下 面 的 公理 可 以 说 是 这 个 
偏好 关系 的 合理 的 性 质 。 

定义 0, ~02 来 表示 同时 满足 0; 02 和 oz 二 ol 。 也 就 是 说 ， 0; 一 02 表示 这 两 个 结果 的 合 
意 度 相同 。 此 时 ， 我 们 说 Agent 在 结果 o 与 0 之 间 没 有 偏好 。 

定义 oo 来 表示 o 二 os H o 关 ol 。 也 就 是 说 ，Agent 偏好 结果 o 胜 过 结果 o, H 
此 差异 有 显著 性 。 此 时 ， 我 们 称 o 强 偏好 (strictly preferred) F oz 。 
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一 般 来 说 ， 一 个 Agent 事先 不 能 确切 地 知道 其 行为 产生 的 结果 。 通 过 在 各 个 结果 上 分 
配 有 限 的 概率 来 定义 一 个 抽奖 法 (lottery) ， 记 为 

[Pr 20) ,pa 202 ,加 :or] 

其 中 ，o; 是 Agent 的 行为 产生 的 各 种 结果 ， 户 是 非 负 实数 且 满 足 

De =1 

上 述 抽 奖 法 规定 了 结果 o 的 发 生 概 率 是 加 。 在 后 文 叙 述 中 ， 假 设 所 有 结果 都 包含 抽 
奖 法 ， 对 于 抽奖 法 来 说 也 同样 包含 有 抽奖 法 。 

公理 9. 1( 完 备 性 ) Agent 在 所 有 结果 上 都 定义 了 偏好 ; 

Vo; Voz 0; > op Ro > o, 

公理 9.1 的 合理 性 在 于 一 个 Agent 必须 采取 行动 。 如 果 Agent 执行 了 可 用 的 行为 能 够 
产生 结果 o 和 o ， 那 么 它 就 会 显 式 或 隐 式 地 更 希望 得 到 其 中 的 某 个 结果 ， 而 不 希望 得 到 
另 一 个 结果 。 

公理 9. 2( 可 传递 性 ) 偏好 一 定 是 可 传递 的 : 

te Ko, So, 并 且 oz 二 ox ， 那 么 有 ol 二 os 。 

为 说 明 公 理 9. 2 的 合理 性 ， 首 先 假设 该 公理 是 错误 的 ， 即 当 o >o 并 且 o>o 时 有 
os>ol 。 因 为 o 强 偏好 于 o ， 所 以 Agent 会 乐意 付出 一 些 代 价 将 o 结果 转换 成 nm 。 假 设 
Agent 得 到 了 o 结果 ， 由 于 结果 o 至 少 与 结果 os 一 样 好 ， 所 以 Agent 会 乐意 得 到 结果 
os 。 进 一 步 ， 结 果 o 至少 与 结果 o 一 样 好 ， 所 以 Agent 会 乐意 得 到 结果 o,. —H Agent 
得 到 结果 w ， 它 就 会 乐意 付出 一 些 代价 从 而 得 到 结果 o 。 此 时 ，Agent 通过 偏好 关系 走 了 一 
个 循环 ， 付 出 了 成 本 又 回 到 了 原 地 。 这 个 含有 成 本 付出 的 循环 被 称 为 货币 泵 ， 因 为 只 要 循环 
足够 多 次 ，Agent 必须 付出 的 成 本 会 超过 任何 有 限 的 数值 。 因 此 ， 在 一 组 结果 之 中 循环 并 为 
之 付出 成 本 是 不 符合 理性 的 ， 从 而 ， 一 个 理性 的 Agent 对 结果 的 偏好 应 该 存在 可 传递 性 。 

此 外 ,假设 混合 的 > 和 二 关系 满足 单调 性 ， 因 此 ， 如 果 公 理 9.2 的 前 提 中 的 一 个 或 两 
个 偏好 关系 是 强 偏好 的 ， 那 么 其 结论 也 是 强 偏好 的 。 也 就 是 说 ,如果 o >os 并 且 o Sos, 
那么 有 01>03; 或 者 ， 如 果 01 之 02 并 且 02 >03 9 那么 有 0} >o; o 

公理 9. 3( 单 调 性 ) 一 个 Agent 偏向 于 以 较 大 的 概率 (而 不 是 以 较 小 的 概率 ) 得 到 较 好 
的 结果 ， 即 如 果 有 oro L p>q, WA 

[pro (1 — D)o] > [q:01.€1 —q):0: ] 

注意 ， 在 公理 9. 3 中 ， 结 果 之 间 的 符号 > 表示 Agent 的 偏好 ， 而 p 5g ZAHRA 
两 个 数值 间 的 大 小 比较 。 

公理 9. 4( 可 分 解 性 )[ 赌 博 中 无 乐趣 ] 对 于 两 个 抽奖 法 ， 如 果 对 于 相同 的 结果 其 产生 
的 概率 是 相同 的 ， 则 Agent 对 这 两 个 抽奖 法 没有 偏好 ， 对 于 抽奖 法 谋 套 抽奖 法 的 情况 也 是 
eth, Bite: 

[pio s (1 — p):[Lq:02,—q):03]] ~ [p:0,,0 — pgq:os, (1— p) (1 — gq) 03] 
另外 ， 对 于 任意 的 结果 ol 和 os A 0,~[1:0;+ 0:02], 

公理 9. 4 说 明 抽 奖 法 只 与 其 能 够 产生 的 结果 及 产生 结果 的 概率 有 关 。 如 果 一 个 Agent 
有 赌博 的 偏好 ， 那 么 赌博 应 成 为 结果 空间 的 一 部 分 。 

上 述 公理 能 用 来 刻画 一 个 Agent 关于 结果 与 抽奖 法 的 许多 偏好 。 假 设 有 oo o> 
03 + 考虑 对 于 不 同 的 概率 Ps pelo, 1], 该 Agent 是 否 偏向 获得 如 下 结果 : 

© 0p 

。 抽奖 法 [p:0;，(1 一 p) :oj 

当 p=1 时 ，Agent 偏向 于 上 述 抽奖 法 (因为 该 抽奖 法 等 价 于 o HAA oo). 4 


RIF 不 确定 性 规划 247 


p=0 RY, Agent 偏向 于 o:( 因 为 此 时 上 述 抽奖 法 等 价 于 o. 并且 o:>os)。 随 着 p 的 变动 ， 
在 某 一 取 值 处 ，Agent 的 偏好 在 o 与 上 述 抽奖 法 之 间 突 然 发 生 了 变动 。 图 9-1 说 明了 偏好 
随 p 的 取 值 变化 而 发 生变 动 的 情况 ， 其 中 X 轴 表 示 p 的 取 值 ，Y 轴 表 示 偏 好 的 结果 。 


偏好 的 结果 


[p:o,, 1-p:0,] 





P2 
抽奖 法 中 的 概率 
图 9-1 o 与 抽奖 法 间 的 偏好 是 p 的 一 个 函数 


命题 9, 1 如 果 一 个 Agent 的 偏好 关系 是 完备 的 、 可 传递 的 ， 满 足 单调 性 和 可 分 解 性 
公理 ， 则 如 果 有 my>os ，o>oi， 那 么 存在 一 个 ps OKISA: 

。 对 于 所 有 的 p<p., Agent 偏向 于 0,， 而 不 是 上 述 抽 奖 法 ( 即 oo>[p:og，(1 一 

p) :os ]) 。 

。 对 于 所 有 的 p>p:, Agent 偏向 于 上 述 抽 燃 法 ( 即 [p:01，(1 一 p) :os ]>oz )。 

证 明 : 根据 单调 性 和 可 传递 性 ， 对 于 任意 的 D> 如 果 o: > [pro > (1 一 加 )5os]， 则 对 
于 任意 的 p' <p H o:> [p :0, (1—p’):0;]. 相似 地 ， 对 于 任意 的 p> MRE ps0.» (= 
p):0;]>0, 则 对 于 任意 的 p>p 有 [p' :oi， (1— p'):03 ]>o2, 根据 完备 性 ， 对 于 任意 的 
pp， 只 存在 三 种 情况 : oz >Lp:o1- (1— p):03], o ~[p:o01, (1— p):03], [pias (= 
户 ) :0s >o:。 如 果 存 在 一 个 p 满足 0s 一 [p:0,，(1 一 蕊 ) :03]， 则 命题 得 证 。 对 于 满足 Agent 
要 么 偏好 o 要 么 偏好 [p:01，(1 一 p) :os] 的 某 一 个 p， 均 对 于 所 有 大 于 p 或 小 于 bp HE 
含 着 相同 的 偏好 。 不 断 切 分 那些 我 们 还 不 知 其 偏好 的 区 域 ， 我 们 会 得 到 一 个 极限 值 ， 该 值 
就 是 满足 命题 的 pe 。 a 

命题 9. 1 没有 明确 Agent 在 p: 时 的 偏好 。 下 面 这 个 公理 说 明 Agent 在 这 个 取 值 上 没 
有 偏好 。 

公理 9. 5( 连 续 性 ) 假设 有 om>oz，oz>osg， 则 存在 一 个 如 EL[0，1] 使 得 


o ~ [pe:0,+(1 — pz) :03 | 
下 面 一 个 公理 表明 ， 如 果 把 一 个 抽奖 法 中 的 结果 替换 成 另 一 个 不 会 更 差 的 结果 ， 则 抽 
奖 法 不 会 变 得 更 差 。 


公理 9. 6( 可 替换 性 ) ”如 果 ozo. BA Agent 会 弱 偏 好 将 oa FRA 01 而 其 他 都 相 
同 的 抽奖 法 。 也 就 是 说 ， 对 于 任意 的 户 和 结果 os ， 有 : 

[p:0; 5(1— p):03] > [pra:,C1 — p):03 ] 

该 公理 的 一 个 直接 的 推论 是 可 以 将 一 个 结果 替换 为 另 一 个 Agent 没有 偏好 的 结果 而 不 
改变 其 偏好 。 

命题 9.2 如 果 一 个 Agent 满足 可 替换 性 公理 且 0, ~o., BA Agent 对 那些 仅 是 结果 ol 
和 o 不 同 的 抽奖 法 无 偏好 。 也 就 是 说 ， 对 于 任意 的 和 结果 08， 下 面 的 无 偏好 关系 成 立 : 

[p:0,.€1— p):0,] ~ [p:02,(1— p):0; ] 

该 命题 成 立 是 因为 O1 一 oz 等 价 于 01 之 0; H. 0; 之 01。 
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如 果 一 个 Agent 满足 完备 性 、 可 传递 性 、 单 调 性 、 可 分 解 性 、 连 续 性 和 可 替换 性 公 
理 ， 那 么 就 定义 该 Agent 是 理性 的 (rational) 。 
这 个 关于 理性 的 技术 定义 是 否 符合 你 关于 理性 的 直觉 概念 由 你 来 作出 判断 。 在 本 节 的 
后 面部 分 ， 我 们 给 出 由 此 定义 得 出 的 结果 。 
偏好 关系 看 起 来 可 能 很 复杂 ， 不 过 ， 下 面 的 定理 表明 一 个 理性 的 Agent 赋予 一 个 结果 
的 价值 能 够 用 一 个 实数 来 表示 ， 而 这 些 实数 可 以 用 来 表示 概率 ， 因 此， 不 确定 环境 下 的 偏 
好 可 以 通过 期 望 进行 对 比 。 这 有 点 令 人 意外 ， 原 因 是 : 
。 乍 看 起 来 ， 偏 好 反映 的 因素 过 多 ， 因 此 难以 用 一 个 数值 表示 。 例 如 ， 尽 管 一 个 人 
可 能 试图 使 用 美元 的 多 少 来 衡量 偏好 ， 但 并 不 是 所 有 的 东西 都 有 一 个 用 来 销售 的 
价格 或 者 难以 将 其 价值 转换 成 美元 或 美 分 。 
。 你 可 能 不 认为 那个 数值 能 与 概率 联系 起 来 。 对 于 任意 的 货币 值 z 和 yy 及 pelo, 
1], 一 个 对 于 价值 为 $ (pz 十 (1 一 p)y) 和 按 抽奖 法 [Lp: $z，(1 一 p) $ yj 确定 的 
货币 价值 并 无 偏好 的 Agent 被 称 为 期 望 货 币 价值 (expected monetary value, 
EMV)Agent。 大 多 数 人 都 不 是 EMV Agent， 因 为 他 们 在 诸如 $1 000 000 与 根据 
抽奖 法 [0.5:$0，0.5:$2000 000] 确 定 的 美元 数 之 间 有 很 强 的 预 设 偏好 (想象 一 
下 ， 你 是 愿意 直接 得 到 一 百 万 美元 呢 ? 还 是 愿意 执 一 枚 硬币 ， 当 出 现 正 面 时 什么 
也 得 不 到 ， 而 当 出 现 反面 时 得 到 两 百 万 美元 ?)。 钱 的 多 少 不 能 简单 地 与 概率 联系 
起 来 ， 因 此 用 一 个 数值 表示 偏好 的 概率 自然 令 人 感到 惊奇 。 
命题 9. 3 如 果 一 个 Agent 是 理性 的 ， 则 对 于 所 有 的 结果 o 都 有 一 个 实数 lo)， 称 
为 o 的 效用 (utility)， 满 足 
。 ooj, % 142% ulo;) 之 ul(o;)。 
。 效用 与 概率 呈 线 性 关系 
uC pi 101 + Po 202 s*y Pez ]) = Prulo) prulos) + ++ + piulo) 
TERA: 如 果 Agent 没有 强 偏 好 ( 即 Agent 对 于 得 到 的 任何 结果 都 一 视 同 仁 )， 则 对 于 所 
有 的 结果 o 定义 其 效用 为 wx(o) 一 0。 
另 一 方面 ， 选 择 最 好 的 结果 记 为 oe* ， 选 择 最 差 的 结果 记 为 ours ， 并 对 于 任意 的 结果 
o， 定 义 其 效用 为 p, HF p we: 
o~ LP: Otes Cl — D) Oura] 


命题 的 前 半 部 分 满足 可 蔡 换 性 和 单调 性 。 
命题 的 后 半 部 分 能 够 通过 将 o 替换 为 等 价 的 、 介 于 ou 与 oo 之 间 的 抽奖 法 ， 以 及 公 
理 中 给 出 的 效用 得 到 证 明 。 证 明细 节 留 作 练习 。 画 


在 上 述 证 明 中 ， 效 用 全 部 介 于 [0，1j 之 间 ， 但 任意 的 线性 刻度 都 能 得 到 同一 结论 。 有 
时 候 ，[0，100] 是 一 个 很 好 的 刻度 ， 这 样 可 以 使 它 和 概率 明确 区 分 开 来 ; 在 另 一 些 时 候 ， 
对 于 需要 付出 成 本 才能 得 到 的 结果 来 说 ,负数 也 是 有 用 的 。 通 常 ， 一 个 程序 应 该 接受 任意 
的 对 于 用 户 来 说 直观 的 刻度 。 

在 钱 数 与 效用 之 间 ， 并 不 常常 存在 线性 关系 ， 即 使 每 一 结果 都 附 有 货币 价值 时 也 是 如 
此 。 当 涉及 钱 时 ， 人 们 常常 是 风险 规避 (risk averse) 的 。 他 们 宁愿 稳 稳 地 拿 在 手中 美元 ， 
而 不 愿 参与 一 个 获得 钱 数 的 期 望 为 的 随机 过 程 ( 在 这 个 过 程 中 可 能 得 到 更 多 回报 ,也 可 
能 得 到 较 少 回报 )。 

【 例 9-1). 图 9-2 显示 了 一 个 风险 规避 Agent 的 金钱 -效用 平衡 的 曲线 。 风 险 规避 对 应 
一 个 四 效用 函数 。 

这 个 Agent 可 能 宁愿 获得 30 万 美元 ， 而 不 愿 以 50 吧 的 概率 获得 100 万 美元 50% 的 概率 
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什么 也 得 不 到 ,但 是 他 又 偏向 于 豪赌 100 万 美元 而 不 是 直接 得 到 27 万 5 千 美元 。 他 愿意 选择 
以 73% 的 概率 博取 100 万 美元 的 赌局 ， 而 不 愿 选择 以 50% 的 概率 博取 50 万 美元 的 赌局 。 
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图 9-2 一 个 风险 规避 智能 体 的 金钱 -效用 平衡 图 


注意 ， 效 用 函数 u( $999 000)s*0. 9997。 因 此 ， 对 于 这 个 效用 函数 ， 人们 可 能 会 愿意 
付 1 000 美元 来 消除 造成 失去 所 有 钱 的 0.03% 的 概率 。 这 就 是 保险 (insurance) 公 司 存在 的 
原因 。 通 过 付 给 保险 (insurance) 公 司 一 些 钱 ， 比 如 600 美元 ，Agent 能 够 将 抽奖 法 的 价值 
由 99 万 9 千 美 元 增加 到 100 万 美元 ， 而 保险 公司 期 望 的 赔付 是 300 K, WEDARI 
300 美元 。 保 险 公 司 能 够 通过 为 足够 多 的 房产 提供 保险 来 获得 其 期 望 的 收益 。 这 对 各 方 都 
是 有 益 的 。 Ei 
正如 前 面 所 述 ， 理 性 与 效用 函数 的 形式 没有 关系 。 
| 【 例 9-2〗 图 9-3 显示 了 一 个 人 的 金钱 -效用 平衡 曲线 ， 该 人 十 分 想 要 一 个 价值 30 美 
元 的 玩具 ， 但 是 他 也 乐意 要 一 个 价值 20 美元 的 玩具 。 除 此 之 外 ， 钱 对 于 Agent 的 决策 影 
响 不 大 。 该 Agent 还 准备 承担 风险 来 得 到 他 想 要 的 。 比 如 ， 如 果 它 有 29 美元 ， 那 么 它 会 
很 高 兴 在 一 个 公平 的 方式 下 ， 如 抛掷 一 枚 硬币 ， 下 注 19 美元 去 赢 取 另 一 个 Agent 的 1 美 
元 。 该 Agent 不 想 要 超过 60 美元 的 玩具 ， 因 为 这 会 使 它 认为 这 是 在 敲诈 。 


1 


型 & 


10 20 30 40 50 60 70 80 9%0 100 
美元 


图 9-3 来 自 例 9-2 的 一 个 金钱 -效用 均衡 曲线 < 
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因子 化 效用 


正如 前 面 的 定义 ， 效 用 是 结果 或 状态 的 一 个 函数 。 通 常 ， 由 于 存在 的 状态 过 多 ， 以 至 
于 难以 直接 用 状态 来 表示 效用 函数 。 使 用 特征 来 表示 效用 函数 是 一 个 更 容易 的 方式 。 

假设 每 一 个 结果 都 能 使 用 特征 X, ees Xa HAE. RINK (additive utility) 能 够 分 
解 为 因子 的 集合 : 

uCX, s Xa) = fiX) + + fa (Xa) 

这 样 的 分 解构 成 了 累加 独立 性 (additive independence) (Rix. 

既然 效用 可 以 累加 ， 那 就 极 大 地 简化 了 偏好 引出 (preference elicitation) 一 一 获取 用 户 
的 偏好 的 问题 。 注 意 ， 效 用 的 分 解 不 是 唯一 的 ， 因 为 添加 一 个 常数 到 一 个 因子 上 ， 同 时 从 
另 一 个 因子 上 减 去 相应 的 效用 ， 可 以 得 到 同样 的 效用 。 为 了 将 其 分 解 为 规范 的 形式 ， 我 们 
可 以 定义 一 个 局 部 效用 函数 (CX), 4X 的 取 值 是 其 最 差 值 时 ，u;(X;) 的 取 值 为 0; 4 
X, 的 取 值 是 其 最 优 值 时 ，u;(X;) 的 取 值 为 1; 同时 还 有 一 系列 取 值 为 非 负数 的 权重 w, Hr 
有 的 权重 之 和 为 1， 且 满足 : 

u(X, sts Xn) = w, X u, (Xi) + 十 tw X un CX) 
为 引出 这 样 的 一 个 效用 函数 ， 需 要 引出 每 一 个 局 部 效用 函数 并 估算 其 权 值 。 对 于 每 一 个 特 
征 ， 只 要 它 是 相关 的 ， 就 必然 有 一 个 最 优 的 取 值 和 最 差 的 取 值 。 可 以 使 用 如 下 的 方法 估算 
局 部 函数 及 其 权 值 。 我 们 仅 考虑 Xi ， 对 其 他 特征 的 考察 与 此 类 似 。 对 于 特征 Xi ， 其 取 值 
为 Zi 和 x's 并 且 X:s ty Xa 分 别 取 值 为 x2» “ees Eni 

UCD) Lo ptt yy) — UC Ta Ts) = w X Cula) — u (2) (9,1) 
ip eg ede rashid ibn tO Bovey Eee her solas hcg 
计算 出 来 。 对 于 域 X, 的 其 他 取 值 ， 其 对 应 的 效用 wi 可 通过 式 (9.1) 计 算 一 一 些 时 xz1 
X, BY) fae 22 PUE Cae, (2) =0). 


对 期 望 效用 的 质疑 


对 于 期 望 效 用 理论 ， 存 在 着 多 种 质疑 。Allais 和 Hagen 在 1953 年 提出 的 Allais PH 
[Allais，Hagen，1979] 如 下 。 下 面 两 个 选项 中 ， 你 更 愿意 选 哪个 ? 

A: $1m 一 百 万 美元 

B: 抽奖 法 [0.10:$2.5m，0.89:$lm，0.01:$0] 

类 似 地 ， 你 会 在 下 面 两 个 选项 中 选 哪 个 ? 

C: 抽奖 法 [0.11: $1lm,， 0.89; $0] 

D: 抽奖 法 [0.10:$2.5m，0.9:$0] 

结果 是 许多 人 选 A 而 不 选 BB,， 选 D 而 不 选 C。 这 个 选择 结果 与 前 面 的 理性 公理 不 一 
致 。 为 解释 这 个 现象 ， 上 述 选 项 可 以 合并 为 同样 的 形式 : 

A, C: #4 #3[0.11:$1m, 0.89:X] 

B, D: 抽奖 法 [0.10; $2.5m, 0.01:$0, 0.89:X] 

在 选项 A 和 B 中 ， 久 是 一 百 万 美元 。 在 选项 C 和 DD 中 ,， 鲜 是 0 美元 。 仅 合并 各 选项 
的 不 同 部 分 看 起 来 是 一 个 合适 的 策略 ， 但 人 们 似乎 倾向 于 确定 的 结果 。 

Tversky 和 Kahneman[1974] 通 过 一 系列 的 人 群 实验 ,说 明了 人 们 是 如 何 系 统 化 地 偏 
离 效 用 理论 的 。 造 成 这 种 偏差 的 一 个 原因 是 问题 描述 的 框架 效应 (framing effect)。 考 虑 下 
面 的 问题 : 
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。 一 种 疾病 预计 会 致 600 人 死亡 。 有 下 面 两 种 应 对 方案 : 

方案 A: 挽救 200 人 

ARB: 有 1/3 的 概率 挽救 600 人 ， 或 者 有 2/3 的 概率 导致 600 人 全 部 死亡 
你 愿意 选择 哪个 方案 ? 
。 一 种 疾病 预计 会 致 600 人 死亡 。 有 下 面 两 种 应 对 方案 : 

方案 C: 有 400 人 死亡 

HRD: 以 1/3 的 概率 致 0 人 死亡 ， 有 2/3 的 概率 致 600 人 死亡 

你 愿意 选 哪 个 方案 ? 

Tversky 和 Kahneman 的 研究 表明 , 在 A 和 BB 方 案 中 ， 有 72% 的 人 选择 A; ECHD 
方案 中 ， 有 22% 的 人 选择 C。 然 而 ， 这 两 个 方案 是 完全 一 样 的 ， 只 不 过 描述 方式 不 同 
ZY. 

处 理 预 期 效用 的 另 一 个 方法 是 Kahneman 和 Tversky 提出 的 前 景 理 论 (prospect theory), 
在 这 个 理论 中 考虑 了 Agent 当前 的 财富 状况 。 也 就 是 说 ， 做 决策 的 依据 是 Agent 的 收益 和 
损失 ， 而 不 是 结果 。 然 而 ， 这 样 做 的 原因 仅 是 它 更 符合 人 类 的 选择 习惯 ， 而 不 意味 着 这 对 
于 人 工 Agent 来 说 是 最 好 的 选择 。 但 是 ， 如 果 一 个 人 工 Agent 必须 与 人 类 交互 ， 则 它 应 该 
考虑 人 类 的 推理 方式 。 


累加 独立 性 假设 是 一 个 强 独 立 假设 。 特 别 的 ， 在 式 (9. 1) 中 ， 对 于 所 有 的 Xs。，…，X， 
的 取 值 xz;，…，z,， 计 算 效 用 的 差异 的 方法 是 相同 的 。 

累加 独立 性 假设 常常 不 是 一 个 好 的 假设 。 对 于 两 个 二 值 特征 的 两 个 取 值 ， 如 果 同 时 取 
两 个 值 的 效用 比分 别 取 两 个 值 的 效用 之 和 高 ， 则 称 这 两 个 取 值 是 互补 (complement) 的 。 假 
设 有 特征 X MY, HEARDI tos z {yo yilo MF a Mooi, WR Agent 在 已 经 
有 其 中 一 个 取 值 的 情况 下 又 有 了 另 一 个 取 值 时 的 效用 优 于 Agent 有 其 中 一 个 取 值 而 没有 另 
一 个 时 的 效用 ， 则 称 zx 和 y 是 互补 的 : 

UCE s Yo) — uzo sry) < ulaz y1) — ulto syi) 

FA, ARASH yi 和 zi 是 互补 的 。 

对 于 两 个 二 值 特征 的 两 个 取 值 ， 如 果 同 时 取 两 个 值 的 效用 比分 别 取 两 个 值 的 效用 之 和 
低 ， 则 称 这 两 个 取 值 是 替换 (substitute) 的 。 假 设 x， My 是 替换 的 ， 则 意味 着 Agent 在 已 
经 有 其 中 一 个 取 值 的 情况 下 又 有 了 另 一 个 取 值 时 的 效用 要 低 于 Agent 有 其 中 一 个 取 值 而 没 
有 另 一 个 时 的 效用 : 

ULT s Yo) — UCI so) > uz 991) — ula s y1) 

KEARE y 和 zi eR. 

【 例 9-3]， 对 于 一 个 旅游 领域 的 采购 Agent 来 说 ， 预 定 某 一 特定 日 期 的 机 票 ， 和 预定 
同一 天 的 酒店 是 互补 的 : 两 者 只 取 其 一 不 会 得 到 好 的 结果 。 

考虑 到 某 人 很 乐意 在 度假 的 一 天 中 外 出 旅游 一 次 (不 是 两 次 )， 则 安排 在 同一 天 的 两 个 
不 同 的 旅游 是 可 以 苦 换 的 。 不 过 ， 如 果 两 个 旅游 地 相距 很 近 ， 并且 去 两 地 的 旅行 时 间 较 
长 ， 则 两 次 旅游 有 可 能 是 互补 的 (如 果 旅 游 两 地 ， 则 更 体现 了 旅行 时 间 的 价值 ) 。 < 

累加 效用 假设 不 存在 效用 的 替换 和 互补 。 当 有 交互 时 ， 我 们 就 需要 一 个 更 复杂 的 模 
型 ， 比 如 广义 票 加 独立 性 模型 (generalized additive independence)， 在 其 中 将 效用 表示 为 
各 因子 之 和 。 这 与 4. 10 节 中 的 优化 模型 相似 。 无 论 如 何 ， 我 们 希望 使 用 这 些 模型 来 计算 
期 望 的 效用 。 引 出 广义 累加 独立 性 模型 要 比 引出 累加 模型 更 为 有 用 ， 因 为 一 个 特征 能 够 出 
现在 许多 因子 上 。 
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9.2 一 次 性 的 决策 


应 用 于 Agent 的 基本 决策 理论 依赖 于 下 面 的 假设 : 

。 Agent 知道 它 能 做 出 哪些 动作 。 

。 执行 每 一 个 动作 所 产生 的 效果 可 以 用 结果 上 的 概率 分 布 来 描述 。 

。 一 个 Agent 的 偏好 由 结果 的 效用 来 表示 。 

如 果 Agent 仅 执 行 一 步 ， 那 么 一 个 理性 的 Agent 应 该 选择 使 得 期 望 效用 最 大 的 那个 动 
作 一 一 这 是 命题 9. 3 的 一 个 结果 。 

【 例 9-4) 考虑 传送 机 器 人 的 一 个 问题 : 机 器 人 的 行动 产生 的 结果 是 不 确定 的 。 特 别 
地 ， 考 虑 从 图 3-1 中 的 位 置 o109 到 达 mail 位 置 的 问题 ， 此 时 机 器 人 有 可 能 偏离 原 定 路 线 
并 从 楼 梯 跌 下 去 。 假 设 机 器 人 能 够 使 用 垫子 (垫子 虽 不 能 减少 事故 的 发 生 概率 ， 但 能 够 减 
轻 事故 的 严重 性 ) 。 不 幸 的 是 ， 这 些 垫 子 增 加 了 机 器 人 的 重量 。 机 器 人 也 可 以 选择 绕 一 个 
大 弯 子 ， 这 样 可 以 减少 事故 发 生 的 概率 ， 但 走 完 全 程 需要 更 多 的 时 间 。 

因此 ， 机 器 人 不 得 不 决定 是 否 要 使 用 垫子 ， 还 要 决定 走 哪 条 路 ( 较 远 的 路 还 是 较 近 的 
路 )。 是 否 会 发 生 事故 是 不 在 其 控制 之 下 的 事情 ， 尽 管 它 可 以 通过 选择 走 较 远 的 路 程 来 减 
少 事 故 发 生 的 概率 。 对 于 Agent 的 每 组 选择 和 是 否 发 生 事故 的 情况 ， 其 结果 都 介 于 发 生 严 
重 损 坏 和 在 不 增加 重量 的 情况 下 快速 到 达 之 间 。 < 

为 了 给 一 次 性 的 决策 建 模 ， 可 以 使 用 一 个 决策 变量 (decision variable) 来 表示 Agent 的 
选择 。 一 个 决策 变量 就 像 一 个 随机 变量 一 样 ， 有 一 个 值 域 ， 但 没有 一 个 与 之 关联 的 概率 分 
布 。 相 反 ， 由 Agent 为 决策 变量 选择 一 个 值 。 一 个 可 能 情景 (possible world) 限定 了 随机 
变量 和 决策 变量 的 值 域 ， 而 对 于 每 一 个 决策 变量 的 值 域 ， 其 对 应 的 随机 变量 都 有 一 个 概率 
分 布 。 也 就 是 说 ， 对 于 每 一 个 决策 变量 的 每 一 次 赋值 ， 满 足 该 次 赋值 的 可 能 情景 的 度量 之 
和 为 1。 条 件 概率 只 有 在 决策 变量 的 取 值 是 其 依赖 条 件 的 一 部 分 时 才 有 定义 。 

图 9-4 所 示 的 决策 树 描述 了 Agent 可 选 的 各 种 选项 及 其 所 产生 的 结果 (这 里 与 用 于 分 
类 的 决策 树 不 同 ) 。 阅 读 这 个 决策 树 时 需要 从 根 节点 (在 图 的 最 左边 ) 开 始 。 对 于 每 一 个 节 
点 ， 可 从 其 后 续 的 分 支 中 选择 一 个 来 继续 下 一 个 选择 。 对 于 决策 节点 (用 矩形 表示 的 节 
A), Agent 可 以 做 出 选择 ， 确 定 按照 哪个 分 支 走 下 去 。 对 于 每 一 个 随机 节点 (用 圆圈 表示 
的 节点 ) Agent 不 能 选择 沿 哪 个 分 支 走 下 去 ， 此 时 ， 在 可 选 分 支 中 均 分 配 有 一 定 的 选择 
概率 。 通 往 一 个 叶子 的 每 一 条 路 径 对 应 于 一 个 情景 w;， 它 表示 相应 路 径 所 能 产生 的 结果 。 


Wo: 中 等 程度 的 损坏 
无 事 w: 快 ， 有 附加 重量 
RET 长 路 径 ee wo: 中 等 程度 的 损坏 
无 事 W: 慢 ， 有 附加 重量 
有 事故 w: 严重 损坏 
不 装 垫子 短路 径 Ce w: 快 ， 无 附加 重量 
长 路 径 Ci We: 严重 损坏 
无 事故 w: 慢 ， 无 附加 重量 
图 9-4 ”传送 机 器 人 的 一 个 决策 树 。 和 矩形 节点 表示 机 器 人 能 够 做 出 的 决策 。 
圆 图 节点 表示 机 器 人 在 做 决策 之 前 无 法 观察 到 的 随机 因素 
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[B 9-5] 在 例 9-4 中 共有 两 个 决策 变量 ， 一 个 对 应 于 决定 机 器 人 是 否 使 用 垫子 ， 另 
一 个 对 应 于 决定 走 哪 条 路 径 。 有 一 个 随机 变量 ， 它 确定 是 否 发 生 事故 。 共 存在 8 个 可 能 情 
景 ， 对 应 于 图 9-4 决策 树 中 的 8 条 路 径 。 

Agent 应 该 做 出 什么 决定 取决 于 快速 到 达 这 一 要 求 的 紧迫 程度 、 垫 子 的 重量 、 为 减少 
发 生 严 重 事故 至 中 等 事故 造成 的 损失 而 付出 的 代价 及 发 生 事故 的 可 能 性 大 小 。 

命题 9. 3 的 证 明明 确 了 对 于 结果 的 愿望 程度 的 度量 方法 。 假 设 我 们 决定 效用 的 取 值 范 
围 是 [0，100]。 首 先 ， 选 择 最 好 的 结果 ， 即 ws ， 并 指定 其 效用 为 100; 最 差 的 结果 是 w, 
因此 指定 其 效用 为 0。 对 于 其 他 的 每 一 个 情景 ， 可 考虑 为 介 于 ws 与 ws 之 间 的 一 次 抽奖 。 
例如 ，wo 可 能 具有 的 效用 为 35， 意 味 着 Agent 对 于 wo 和 [0. 35:ws, 0. 65:roi] 是 同等 对 
待 、 没 有 偏好 的 。 结 果 w 比 结果 w FA. m w 的 效用 可 设 为 30。 结 果 w 的 效用 可 设 
为 95， 因 为 它 只 比 结果 ws 稍 差 。 < 

【 例 9-6) 在 疾病 诊断 中 ， 决 策 变量 对 应 于 各 种 治疗 和 检查 。 效 用 的 大 小 依赖 于 检查 
和 治疗 的 成 本 ， 病 人 的 情况 是 好 转 、 不 变 还 是 死亡 ， 病 人 有 短期 痛苦 还 是 有 长 期 痛苦 。 治 
疗 病人 的 结果 依赖 于 病人 接受 的 治疗 、 病 人 的 生理 及 疾病 的 具体 情况 (可 能 有 些 具体 情况 
无 法 知晓 )。 尽 管 我 们 这 里 使 用 了 医疗 诊断 的 术语 ， 但 这 个 方法 对 于 人 工 制品 (比如 飞机 )》 
的 诊断 同样 适用 。 < 

在 一 个 一 次 性 的 决策 中 ，Agent 为 每 一 个 决策 变量 选择 一 个 值 。 这 可 以 通过 视 所 有 决 
策 变量 为 一 个 组 合 决策 变量 的 方法 来 建立 模型 。 该 组 合 决策 变量 的 值 域 为 每 一 个 决策 变量 
的 值 域 的 又 乘 。 该 组 合 决策 变量 记 为 D. 

每 一 个 情景 o 对 应 决策 变量 D 的 一 个 赋值 ， 同 时 对 应 每 一 个 随机 变量 的 赋值 。 

一 个 单一 决策 (single decision) 是 给 决策 变量 的 一 次 赋值 。 单 一 决策 D=d, 的 期 望 效 
用 (expected utility) 是 : 

eU|D=4) = >) Uw) X Pw) 


«-(D=d;) 
其 中 P(w) 是 情景 w 的 发 生 概率 ，U(w) 是 情景 o 的 效用 U 的 取 值 ; w Dd) HE LER 
策 变量 DD 在 情景 wb。 下 取 值 4;。 因 此 ， 期 望 效用 的 计算 就 是 已 选择 合适 决策 的 情景 之 和 ，。 
最 优 单一 决策 (optimal single decision) 是 期 望 效 用 最 大 的 决策 ， 即 DD 二 di。 是 一 个 最 
优 决策 ， 如 果 有 : 
e(U|D = dw) = max w(U|D = d,) 


d; E dom(D) 


其 中 dom(D) 是 决策 变量 D 的 值 域 。 因 此 有 : 


dmx = arg max e(U|D= d;) 
d; Edom (D) 


【 例 9-71 例 9-4 中 的 传送 机 器 人 问题 是 一 个 单一 决策 问题 。 在 该 问题 中 ， 机 器 人 不 
得 不 决定 是 否 使 用 垫子 的 变量 Wear _Pads 和 指示 走 哪 条 路 的 变量 Which Way 的 取 值 。 单 
一 决策 是 决策 变量 的 复合 (Wear_Pads，Which _Way)。 对 每 一 个 决策 变量 的 每 一 次 赋值 
都 有 一 个 期 望 的 值 。 例 如 ，Wear_Pads 二 true 人 Which_Way =short 的 期 望 效用 是 : 
e(U | wear_pads \ Which_Way = short) 
=P(accident | wear_pads A Which _way=short) X utility( wo) 
+(1—P(accident | wear_pads \ Which _way=short)) X utility(w, ) 


其 中 情景 w Mew, 在 图 9-4 PARR. wear_pads 的 含义 是 Wear_Pads=true, a 
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单 阶段 决策 网 络 


决策 树 是 一 个 基于 状态 的 表示 ， 因 为 各 个 情景 对 应 着 最 终 的 状态 。 然 而 ,使 用 特征 
(用 变量 表示 ) 来 表示 和 推理 决策 过 程 更 加 自然 高 效 。 

单 阶 段 决策 网 络 (single-stage decision network) 是 信念 网 络 的 一 个 扩展 ， 它 有 三 类 节点 : 

。 决策 节点 ， 用 和 矩形 表示 ， 代 表 了 决策 变量 。Agent 为 每 一 个 决策 变量 选择 一 个 取 

值 。 对 于 有 多 个 决策 变量 的 情况 ， 我 们 假设 决策 节点 有 一 个 完整 的 顺序 ， 并 且 称 
该 顺序 中 出 现在 决策 节点 D 之 前 的 决策 节点 为 节点 DD 的 父 节点 。 

。 机 会 节点 ， 用 椭圆 表示 ， 代 表 了 随机 变量 。 这 些 节点 的 表示 与 信念 网 络 中 节点 的 
表示 方法 一 致 。 每 一 个 机 会 节点 有 一 个 相关 联 的 值 域 及 一 个 由 其 父 节 点 给 出 的 条 
件 概率 。 与 信念 网 络 一 样 ， 机 会 节点 的 父 节 点 表示 条 件 依赖 : 给 定 了 父 节点 后 ， 
一 个 变量 独立 于 其 子孙 节点 。 在 一 个 决策 网 络 中 ， 机 会 节点 和 决策 节点 都 可 以 作 
为 机 会 节点 的 父 节点 。 

。 效用 节点 Cutility node) ， 用 菱形 表示 ， 代 表 了 效用 。 效 用 节点 的 父 节 点 是 效用 所 

依赖 的 变量 。 机 会 节点 和 决策 节点 都 可 成 为 效用 节点 的 父 节点 。 

每 一 个 机 会 变量 和 每 一 个 决策 变量 都 有 一 个 关联 的 值 域 ， 但 没有 值 域 与 效用 节点 相关 
联 。 虽 然 机 会 节点 代表 了 随机 变量 ， 决 策 节 点 代表 了 决策 变量 ， 但 却 没 有 效用 变量 与 效用 
节点 相 联系 。 效 用 节点 为 其 父 节 点 提供 了 一 个 函数 。 

与 一 个 决策 网 络 相 联系 的 有 为 每 一 个 机 会 节点 设置 的 条 件 概 率 ( 由 其 父 节 点 提供 ， 与 
信念 网 络 中 的 情况 一 样 )， 还 有 作为 效用 节点 的 父 节 点 的 函数 ， 该 函数 用 于 表示 效用 。 在 
决策 网 的 说 明 中 ， 没 有 表格 与 决策 节点 相 联 系 。 

【 例 9-8) 图 9-5 给 出 了 例 9-4 的 一 个 决策 
网 络 的 表示 。 这 里 共 需 做 出 两 个 决策 : 走 哪 条 
路 和 是 否 戴 垫子 。 是 否 发 生 事故 仅 取 决 于 走 哪 
条 路 。 效 用 依赖 于 上 述 三 个 变量 。 

这 个 决策 网 络 需 要 两 个 因子 : 一 个 代表 了 发 
生 事故 的 条 件 概 率 P(Accident | WhichWay), 
一 个 代表 了 效用 (该 效用 是 变量 WhichWay , 
Accident 和 WearPads WAZO. E 9-5 中 给 出 
了 这 两 个 因子 的 取 值 。 < 

单 阶段 决策 网 络 的 一 个 策略 (policy) 是 对 每 
一 个 决策 变量 的 一 种 赋值 。 每 一 个 策略 都 有 一 
个 期 望 效 用 ， 即 在 该 策略 的 条 件 下 ， 效 用 的 条 
件 期 望 值 。 一 个 最 优 策略 Coptimal policy) 是 期 
望 效 用 最 大 的 策略 ， 也 就 是 说 ， 不 存在 其 他 的 、 
具有 更 高 期 望 效 用 的 策略 。 

图 9-6 说 明了 在 单 阶段 决策 网 络 中 如 何 使 
用 变量 消除 的 方法 来 发 现 一 个 最 优 策略 。 在 前 
去 不 相关 的 节点 和 综合 所 有 随机 变量 之 后 ,将 OS 传送 机 器 人 的 单 阶段 决策 网 络 
只 剩 下 一 个 代表 了 每 一 个 决策 变量 组 合 的 期 望 效用 的 因子 。 这 个 因子 不 必 是 在 所 有 决策 变 
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量 之 上 的 一 个 因子 , 不过， 那些 不 包含 在 内 的 决策 变量 与 最 终 决 策 也 不 会 有 关系 。 








l: procedure OptimizeSSDN( DN) 
2 Inputs 

3 DN， 一 个 单 阶 段 决策 网 络 

4 Output 

5: 一 个 最 优 策 略 及 其 期 望 效用 

6: ”前 去 所 有 不 是 效用 节点 的 祖先 节点 的 节点 ; 
oe 

8 

9 

0 

1 





概括 消除 所 有 的 机 会 节点 ; 

一 一 在 这 个 阶段 ， 只 剩 下 一 个 由 效用 导出 的 因子 F， 
记 下 中 的 最 大 坡 值 为 v; 

记 使 效用 的 取 值 最 大 的 赋值 方案 为 di 

返回 dd 和 vw 





9-6 单 阶段 决策 网 络 的 变量 消除 


【 例 9-9〗 考虑 在 图 9-5 所 示 的 决策 网 络 上 运行 OptimizeSSDN。 没 有 节点 可 被 前 去 ， 
因此 只 有 随机 变量 Accident 可 以 合并 求 和 。 为 了 这 样 做 ， 该 网 络 上 的 两 个 因子 需要 乘 起 来 
(因为 它们 都 包含 有 变量 Accident)， 并 消去 Accident， 最 后 得 到 下 面 的 因子 : 


WearPads _WhichWay 


0.2% 35-+0. 8 * 95=83 
0. 01 * 30-70. 99 * 75=74. 55 


0.2% 3+0. 8 * 100=80. 6 
0. 01 + 0+0. 99 * 80=79. 2 





因此 ， 具 有 最 大 值 的 策略 ， 即 最 优 策略 ， 是 走 较 短路 径 并 戴 垫 子 ， 其 期 望 效用 是 83。 <4 
9.3 FRAR 


一 般 来 说 ， 在 对 其 所 处 环境 一 无 所 知 的 情况 下 ，Agent 既 不 会 作出 多 个 决策 ， 也 不 会 
作出 哪怕 一 个 决策 。Agent 作出 决策 的 典型 情景 是 这 样 的 ， Agent 根据 其 对 所 处 环境 的 观 
察 决定 要 做 出 一 个 动作 ， 执 行 那个 动作 ， 观 察 动作 结果 对 环境 的 影响 ， 然 后 根据 观察 作 下 
一 个 决策 ， 依 此 类 推 。 后 续 的 动作 基于 其 所 观察 到 的 内 容 及 前 一 动作 对 环境 所 产生 的 影 
响 。 在 这 个 情境 下 ， 执 行 一 个 动作 的 唯一 原因 是 为 将 来 的 动作 提供 信息 。 

序 贯 决策 问题 (sequential decision problem) 是 一 系列 的 决策 ， 其 中 需要 为 每 一 个 决策 
考虑 如 下 问题 

。 Agent 能 够 做 哪些 动作 。 

。 Agent 不 得 不 开始 执行 动作 时 ， 它 能 够 获得 或 将 会 获得 的 信息 。 

。 每 个 动作 对 环境 产生 的 影响 。 

。 Agent 对 上 述 影 响 的 期 望 程度 。 

【 例 9-10] 考虑 一 个 简单 的 诊断 情况 : 医生 首先 选择 为 病人 做 一 些 检查 ， 然 后 根据 这 
些 检查 的 结果 制定 病人 的 治疗 方案 。 医 生 考虑 决定 做 某 项 检查 的 原因 是 这 个 检查 的 结果 能 
够 为 治疗 的 下 一 阶段 提供 支持 。 检 查 的 结果 可 能 作为 制定 治疗 方案 时 的 信息 ， 而 不 能 作为 
决定 做 该 检查 时 的 信息 。 做 检查 通常 是 一 个 好 的 做 法 ， 即 使 该 检查 会 伤害 病人 。 

医生 可 选择 的 行为 是 可 供 检查 的 项 目 和 可 供 选 择 的 治疗 方案 。 对 于 做 出 检查 的 决策 来 
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说 ， 可 用 的 信息 将 是 病人 表现 出 来 的 症状 。 对 于 制定 治疗 方案 来 说 ， 可 用 的 信息 包括 病人 
的 症状 、 已 检查 的 项 目 及 这 些 检查 的 结果 。 检 查 的 影响 是 检查 的 结果 ， 其 取决 于 检查 的 项 
目 和 病人 的 疾病 。 治 疗 的 影响 是 治疗 所 能 起 到 的 一 些 作用 及 病人 的 疾病 。 效 用 包括 检查 的 
成 本 、 短 期 带 给 病人 的 痛苦 和 不 便 及 长 期 的 预后 情况 。 < 


9.3.1 决策 网 络 


REM Bz (decision network， 也 称 影响 图 (influence diagram)) 是 有 限 的 序 贯 决策 问题 
的 图 形 化 表示 。 决 策 网 络 扩展 了 信念 网 络 以 包含 决策 变量 和 效用 ， 也 扩展 了 单 阶 段 决 策 网 
络 以 允许 序 贯 决策 。 

特别 的 ， 决 策 网 络 是 一 个 有 向 无 环 图 (DAG)， 其 中 有 机 会 节点 、 决 策 节点 和 效用 节 
点 。 它 对 单 阶段 决策 网 络 进 行 了 扩展 ， 使 得 机 会 节点 和 决策 节点 都 可 成 为 决策 节点 的 父 节 
点 。 决 策 节 点 的 人 边 表示 在 作 决 策 时 那些 可 用 的 信息 。 机 会 节点 的 人 边 表示 概率 依赖 关 
系 。 效 用 节点 的 人 边 表示 效用 所 依赖 的 内 容 。 

无 遗忘 (no-forgetting)Agent 的 决策 是 完全 有 序 的 ， 并 且 记 得 它 之 前 做 出 的 决策 及 做 
出 那些 决策 时 可 用 的 信息 。 无 遗忘 Agent 网 络 中 的 决策 节点 是 完全 有 序 的 ; 如 果 决 策 节点 
D: 在 决策 节点 D, 之 前 ， 则 有 D: 2D, 节点 的 父 节 点 ， 且 D; 的 所 有 父 节 点 也 是 D; 的 父 节 
点 。 因 此 ， 在 D; 节点 已 知 的 所 有 信息 在 D; 节点 上 同样 有 效 ， 且 在 D 节点 选择 的 动作 也 
MAD, 节点 可 用 信息 的 一 部 分 。 无 遗忘 条 件 足 以 确保 下 面 的 定义 是 有 意义 的 ， 且 下 面 的 
算法 能 够 工作 。 

【 例 9-11} 图 9-7 是 Agent 外 出 时 用 以 
决定 是 否 带 雨伞 的 一 个 简单 的 决策 网 络 。 
Agent 的 效用 取决 于 天 气 情 况 和 它 是 否 带 了 
Mie. Ai, Agent 并 不 观察 天 气 情 况 ， 而 
是 仅 观察 天 气 预 报 的 情况 。 而 天 气 预 报 的 情 
况 条 件 依赖 于 天 气 情 况 。 

作为 决策 网 络 的 一 部 分 ， 设 计 者 必须 明 
确 每 一 个 随机 变量 的 值 域 及 每 一 个 决策 变量 的 值 域 。 假 设 随机 变量 Weather 的 值 域 是 {no- 
rain, rain), bABLAEH Forecast 的 值 域 是 {sunny，rainy，cloudy}， 决 策 变量 Umbrella 
的 值 域 是 {takeIt，leavelt}。 效 用 节点 没有 值 域 。 设 计 者 还 必须 明确 随机 变量 在 其 父 节点 
的 作用 下 的 发 生 概 率 。 假 设 PCWeather ) 的 定义 如 下 : 

PCWeather = rain) = 0.3 
而 P(Forecast | Weather) 的 定义 如 下 : 





图 9-7 根据 天 气 情况 决定 是 否 带 雨伞 的 决策 网 络 


Weather Forecast Probability 





norain Sunny 0.7 

norain cloudy 0.2 

norain Rainy 0.1 
rain Sunny 0.15 
rain cloudy 0. 25 
rain Rainy 0.6 
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假设 效用 函数 Utility (Weather, Umbrella) iF : 


Weather Umbrella Utility 





norain takelt 20 
norain leavelt 100 
rain takelt 70 


rain leavelt 0 


对 于 决策 变量 Umbrella， 没 有 相应 的 取 值 列表 。 确 定 该 变量 的 取 值 是 规划 者 的 任务 ， 且 依 
赖 于 天 气 预报 的 情况 。 < 

【 例 9-12] 图 9-8 是 表示 例 9-10 的 场景 
的 一 个 决策 网 络 。 病 人 症状 取决 于 疾病 。 要 
做 哪些 检查 取决 于 有 了 哪些 症状 。 检查 结果 取 
决 于 疾病 和 所 做 的 检查 。 治 疗 取 决 于 症状 、 
做 了 哪些 检查 及 检查 结果 。 结 果 依 赖 于 疾病 
和 治疗 。 效 用 依赖 于 检查 的 成 本 和 副作用 ， 
以 及 治疗 的 结果 。 

注意 ， 做 出 检查 决策 和 治疗 决策 的 诊断 
处 理 并 不 能 确切 地 知道 病人 得 了 什么 病 ， 除 
非 检查 结果 能 够 非常 确定 这 一 点 (然而 ， 通 常 都 不 是 这 种 情况 ) 。 < 

【 例 9-13] 9-9 是 扩展 了 图 6-1 信念 
网 络 的 决策 网 络 。Agent 能 够 接收 到 人 们 离 
开 建 筑 物 的 报告 ， 并 必须 做 出 是 否 打 电话 给 
消防 部 门 的 决定 。 在 打 电 话 之 前 ，Agent 能 
够 检查 烟雾 情况 ， 但 这 需要 付出 一 些 成 本 。 
效用 依赖 于 是 否 打 了 电话 、 是 否 有 火 情 及 检 
查 烟雾 情况 的 成 本 。 

在 这 个 序 贯 决策 问题 中 ， 需 要 作出 两 个 
决策 。 首 先 ，Agent 必须 决定 是 否 检 查 烟 
雾 。 是 否 有 人 离开 建筑 物 的 报告 是 作 这 项 决 
策 前 可 以 获得 的 信息 。 其 次 ，Agent 必须 做 出 是 否 给 消防 部 门 打 电话 的 决策 。 在 作 这 个 决 
策 时 ，Agent 将 需 知道 是 否 有 一 个 报告 、 是 否 检 查 了 烟雾 及 是 否 看 到 了 烟雾 。 假 设 所 有 这 
些 变量 都 是 二 值 的 。 | 389 

决策 网 络 必须 的 信息 包括 信念 网 络 的 条 件 概率 ， 以 及 

。 P(SeeSmoke|Smoke, CheckSmoke): 如何 看 到 烟雾 取决 于 Agent 是 否 检 查 有 烟雾 

及 是 否 有 烟雾 。 假 设 Agent 有 一 个 工作 完好 的 烟雾 传感器 。 此 时 ， 当 且 仅 当 检 查 
了 是 否 有 烟雾 并 且 确 实 有 烟雾 时 ，Agent 就 能 看 到 烟雾 。 (参看 习题 9. 6) 

。 Utility(CheckSmoke, Fire, Call): 效用 的 情况 取决 于 Agent 是 否 检查 了 烟雾 、 
是 否 有 火 情 及 是 否 给 消防 部 门 打 了 电话 。 图 9-10 列 出 了 效用 的 信息 。 这 个 效用 函 
数 表 明 打 电话 的 成 本 是 200、 检 查 是 否 有 烟雾 的 成 本 是 20、 不 过 在 有 火 情 而 没有 
打 电 话 的 情况 下 成 本 是 5000。 效 用 是 成 本 的 负数 。 





图 9-8 医生 诊断 的 决策 网 络 





图 9-9 报警 问题 的 决策 网 络 
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call 
do not call 
call 
do not call 
call 
do not call 


call 





do not call 


图 9-10 报警 决策 网 络 的 效用 < 





9.3.2 策略 


策略 具体 说 明 Agent 在 所 有 不 可 预见 的 情况 下 该 做 什么 。Agent 希望 找到 一 个 最 优 的 
策略 ， 即 能 够 最 大 化 期 望 效 用 的 策略 。 

一 个 策略 由 对 应 于 每 一 个 决策 变量 的 决策 函数 组 成 。 一 个 决策 变量 的 决策 函数 (deci- 
sion function) 是 对 于 决策 变量 的 父 节 点 变量 的 每 一 个 赋值 而 明确 决策 变量 取 值 的 一 个 函 
数 。 因 此 ， 一 个 策略 就 明确 规定 了 Agent 在 面 对 所 有 可 能 的 取 值 时 应 该 采取 的 行动 。 

【 例 9-14】 在 例 9-11 中 ， 有 一 些 策略 如 下 : 

。 总 是 携带 雨伞 。 

。 只 在 天 气 预 报 为 rainy 时 才 带 雨伞 。 

。 只 在 天 气 预 报 为 sunny HAH. 

共有 8 种 不 同 的 策略 ,原因 是 天 气 预 报 只 有 三 种 情况 ， 且 对 于 每 一 种 情况 只 有 两 个 选择 。 本 

【 例 9-15) 在 例 9-13 中 ,一 个 策略 需要 明确 CheckSmoke 的 决策 函数 和 Call 的 决策 
函数 。 其 中 一 些 策略 如 下 : 

。 从 不 检查 烟雾 情况 ， 在 接 到 报告 后 打 电话 。 

。 总 是 检查 烟雾 情况 ， 在 看 到 烟雾 后 打 电 话 。 

。 接 到 报告 后 才 检 查 烟雾 情况 ， 在 接 到 报告 并 看 到 烟雾 后 打 电 话 。 

。 没有 接 到 报告 则 检查 烟雾 情况 ， 没 有 看 到 烟雾 则 打 电 话 。 

。 总 是 检查 烟雾 情况 ， 从 不 打 电 话 。 

在 这 个 例子 中 ， 共 有 1024 个 不 同 的 策略 (因为 每 个 变量 都 是 二 值 的 ) 。 对 于 检查 烟雾 
变量 CheckSmoke， 共 有 4 个 决策 函数 。 对 于 打 电 话 变 量 Call 共有 2 个 决策 函数 ; 对 于 
Call 变量 的 8 个 父 节 点 变量 的 任意 取 值 ，Agent 可 选择 打 电 话 也 可 选择 不 打 电 话 。 < 

策 酷 的 期 望 效用 

可 以 通过 确定 Agent 执行 策略 的 期 望 效 用 来 评价 策略 的 优 劣 。 一 个 理性 的 Agent 应 采 
纳 最 大 化 其 期 望 效用 的 策略 。 

一 个 可 能 情景 (possible world) 为 每 一 个 随机 变量 和 决策 变量 确定 其 取 值 ,一 个 可 能 情景 
不 具有 发 生 概率 ， 直 到 确定 了 所 有 的 决策 变量 的 取 值 。 如 果 一 个 可 能 情景 中 的 每 一 个 决策 变 
量 的 取 值 等 于 一 个 策略 对 应 的 决策 函数 为 每 个 决策 变量 选 定 的 取 值 ， 则 称 该 可 能 情景 满足 该 
策略 。 如 果 是 一 个 可 能 情景 ，r 是 一 个 策略 ， 则 war 定义 为 可 能 情景 中 满足 策略 r。 

一 个 可 能 情景 对 应 着 一 个 完整 的 动作 顺序 的 历史 选择 记录 及 所 有 随机 变量 和 决策 变量 
(包括 所 有 观察 到 的 变量 ) 的 确切 取 值 ; 认识 到 这 一 点 很 重要 。 在 Agent 采用 策略 x 时， 如 
果 可 能 情景 o 是 一 个 可 能 历史 的 演变 ， 则 它 满足 策略 x。 可 满足 性 约束 强化 了 这 样 的 直 
觉 : Agent 实际 上 将 执行 策略 x 为 每 一 个 可 能 的 观察 规定 的 动作 。 
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策略 的 期 望 效 用 为 : 
em = D Ulu) X Pw) 


aes 
其 中 Plo) BAN THE o 发 生 概 率 ， 其 取 值 为 在 各 机 会 节点 的 父 节 点 给 出 的 条 件 概率 的 前 提 
下 各 机 会 节点 的 概率 的 乘积 : U(w) 表 示 情 景 w 下 的 效用 。 
[B 9-16] 在 例 9-11 中 ， 设 mm 为 如 下 策略 如果 天 气 预报 是 多 云 则 带 雨 爹 ， 否 则 不 
带 爹 。 该 策略 的 期 望 效 用 是 满足 该 策略 的 所 有 情景 的 效用 的 平均 : 
elm) = P(norain) P(sunny |norain Utility (norain ,leavelt) 
+ P(norain) P(claudy'| norain Utility (norain ;takelt ) 
+ P(norain) P (rainy | norain Utility (norain , leavelt) 
+ P(rain) P( sunny | rain Utility Crain vleavelt ) 
+ P(rain) P(cloudy | rain Utility (rain ,iakelt) 
+ P(rain) PCrainy | rain Utility (rain, leavelt), 
其 中 norain 表示 Weather =norain, sunny 表示 Forecast=sunny, UEH. TER. RR 
Ar et APUR A RR BEE. AR AT FR < 
最 优 策略 r 是 对 于 所 有 的 策略 x 有 elx" )>e(r) ， 即 一 个 最 优 策略 是 其 期 望 效用 最 大 的 策略 。 
假设 一 个 二 值 的 决策 节点 有 关 个 二 值 的 父 节 点 ， 则 对 父 节点 的 不 同 赋值 共有 2" 种 情 
况 ， 对 决策 节点 来 说 共有 2” 个 不 同 的 决策 函数 。 策 略 的 数量 等 于 各 个 决策 变量 的 不 同 的 
决策 函数 的 数量 之 积 。 这 样 ， 即 便 是 很 小 的 例子 也 会 有 巨 量 的 策略 。 因 此 ， 通 过 枚 举 策略 
集合 来 查找 最 优 策略 的 算法 非常 低 效 。 


9.3.3 决策 网 络 的 变量 消除 


幸运 的 是 ， 我 们 不 必 枚 举 全 部 的 策略 ， 而 是 可 以 使 用 变量 消除 (variable elimination, 
VE) 的 方法 来 找到 最 优 策略 。 该 方法 的 思想 是 首先 考虑 最 后 一 个 决策 ， 查 找 其 父 节 点 的 每 
一 个 取 值 的 最 优 决 策 ， 并 生成 产生 这 些 最 大 取 值 的 一 个 因子 。 这 样 就 形成 了 一 个 新 的 决策 
网 络 ， 但 少 了 一 个 决策 。 如 此 和 迭代 执行 最终 求 解 问题 。 

图 9-11 给 出 了 在 决策 网 络 中 使 用 VE 的 方法 。 实 际 上 它 计 算 了 一 个 最 优 决 策 的 期 望 效 
用 。 该 算法 根据 某 消除 排序 结果 消除 了 不 作为 决策 节点 的 父 节 点 的 随机 变量 。 消 除 排序 不 
影响 结果 的 正确 性 ， 使 用 排序 的 目的 是 提高 效率 。 

















l: procedure VE_DN(CDN): 
2; Inputs 

3: DN, 一 个 单 阶段 决策 网 络 

4; Output 

5: 一 个 最 优 策略 及 其 期 望 效用 

6: Local 

7: DFs: 决策 函数 的 集合 ， 初 始 为 空 

8: Fs; 因子 的 集合 

9: ， 删 去 效用 节点 的 所 有 非 父 节点 的 节点 

10: 在 集合 Fs 中 为 每 一 个 条 件 概率 创建 一 个 因子 

ll: ”在 Fs 中 为 效用 创建 一 个 因子 

12， while 仍然 剩 有 决策 节点 do 

13; 合并 不 作为 决策 区 点 的 父 节点 的 节点 的 随机 变量 


14; 户 在 这 个 阶段 ， 因 子 下 中 的 一 个 决策 节点 口 附带 有 其 父 节点 的 一 个 子 集 
15; 把 max, F MA Fs 中 
16; 将 arg max, F jm A DFs 中 





Er HE ST Ar FO) Ae BY Ba A, EH 
返回 DFs MRR A TF HIB 


FA 9-11 决策 网 络 的 变量 消除 
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在 消除 了 所 有 没有 作为 决策 节点 的 父 节 点 的 随机 变量 之 后 ， 必 然 存 在 一 个 包含 在 一 个 
因子 中 的 决策 变量 及 其 父 节 点 的 某 个 子 集 ， 原 因 是 Agent 是 无 遗忘 的 。 这 是 行为 顺序 中 的 
最 后 一 个 动作 。 

为 消除 决策 节点 ，VE_DN 算法 中 为 此 决策 选择 使 效用 最 大 的 那个 值 。 这 个 最 大 化 在 
剩余 的 变量 上 生成 了 一 个 新 的 因子 ， 及 为 消除 掉 的 决策 变量 生成 的 一 个 决策 函数 。 这 个 用 
最 大 化 的 方法 生成 的 决策 函数 是 一 个 最 优 策略 的 组 成 部 分 。 

【 例 9-17) 在 例 9-11 中 .共有 三 个 初始 的 因子 ， 分 别 表示 天 气 的 概率 P(Weather)、 天 气 
预报 的 条 件 概率 P (Forecast | Weather ) 和 效用 函数 Utility (Weather, Umbrella), H je WÑ E 
Weather， 方 法 是 将 三 个 因子 相 乘 ， 然 后 合并 Weather 并 给 Forecast 和 Umbrella 生成 一 个 因子 : 









Forecast Umbrella Value 


sunny takelt 12. 95 
sunny leavelt 49.0 
cloudy takelt 8.05 
cloudy leavelt 14.0 
rainy takelt 14.0 
rainy leavelt 7.0 


为 通过 Umbrella 来 最 大 化 因子 ， 针 对 每 一 个 Forecast 的 取 值 ，VE_DN 算法 选择 使 得 因 
FHA Umbrella 的 取 值 。 例 如 ， 当 Forecast 的 取 值 是 sunny 时 ，Agent 应 该 把 雨伞 放 
在 家 里 ， 因 为 此 时 因子 的 值 是 49. 0。 

VE_DN 算法 为 Umbrella 建立 一 个 最 优 的 决策 函数 ， 该 函数 为 Umbrella 选择 的 值 对 
于 每 一 个 Forecast 的 取 值 都 会 使 因子 的 取 值 最 大 : 









Forecast Umbrella 
sunny leavelt 
cloudy leavelt 
rainy takelt 


此 时 会 生成 一 个 新 的 因子 ， 该 因子 的 取 值 是 上 面 对 应 于 每 一 个 Forecase 取 值 的 因子 : 


Forecast 





sunny 49.0 
cloudy 14.0 
rainy 14.0 


现在 根据 上 述 因子 合并 计算 Forecast， 得 到 的 取 值 是 77.0。 这 就 是 最 优 策略 的 期 望 效用 。 < 
【 例 9-18] 考虑 例 9-13。 在 合并 变量 之 前 有 如 下 的 因子 : 





Meaning Factor 
P( Tampering) fol Tampering) 
P( Fire) fi (Fire) 
P(Alarm| Tampering, Fire) f: Tampering. Fire, Alarm) 
P(Smoke | Fire) f;(Fire, Smoke) 
P( Leaving | Alarm) f(Alarm, Leaving) 
P(Re port | Leaving ) fs(Leaving, Report) 
P(SeeSmoke | CheckSmoke , Smoke) fs Smoke, SeeSmoke, CheckSmoke) 


utility( Fire, CheckSmoke, Call) f; (Fire, CheckSmoke, Call) 
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只 要 选择 了 合适 动作 ， 则 期 望 效用 就 是 发 生 概率 与 相应 效用 的 乘积 。 

VE_DN 算法 合并 不 作为 决策 节点 的 父 节 点 的 随机 变量 。 因 此 ， 需 合并 Tampering, [394 
Fire, Alarm, Smoke 和 Leaving 变量 。 在 消除 这 些 变量 之 后 ， 只 剩 下 一 个 因子 ， 该 因子 
的 部 分 内 容 如 下 (保留 两 位 小 数 ) : 


Report SeeSmoke CheckSmoke Call 





一 二 一 叶 

: rm rm 一 一 一 一 
rm hhee 一 
š 

toe ee ts 


根据 这 个 因子 ， 可 通过 为 Call 选择 一 个 取 值 使 得 对 变量 Report, SeeSmoke 和 
CheckSmoke 的 每 一 组 赋值 都 使 Valiue 的 取 值 最 大 的 方法 为 Call 创建 一 个 最 优 决 策 函 数 。 
数值 一 1.33 和 一 29.3 的 较 大 者 为 一 1.33， 因 此 ， 当 Report=t, SeeSmoke=t H. 
CheckSmoke=t 有 时， 最 优 的 动作 是 Cal =t( 此 时 的 因子 为 一 1.33)。 对 于 Report, 
SeeSmoke#ll CheckSmoke 的 其 他 取 值 ， 使 用 同样 的 方法 。 

Call 的 一 个 最 优 决 策 函 数 是 : 


Report SeeSmoke CheckSmoke Call 
t t t t 





t t f t 
t f t f 


请 注意 ， 当 SeeSmoke=t,. CheckSmoke=f IY, Call 取 任 何 值 都 可 以 。 在 这 种 情况 下 ， 
Agent 计划 做 什么 都 无 关 紧 要 ， 因 为 这 种 情况 实际 上 不 会 出 现 。 

由 最 大 化 Call 而 产生 的 因子 包括 了 针对 Report. SeeSmoke 和 CheckSmoke 的 各 种 取 
值 的 最 大 因子 取 值 : 


Report SeeSmoke CheckSmoke Value 
t t 





t t 
t f 





然后 可 以 合并 SeeSmoke， 得 到 如 下 的 因子 : 





Report CheckSmoke 


FF e 
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针对 Report 最 大 化 CheckSmoke 得 到 决策 函数 和 因子 如 下 : 


Report CheckSmoke 
t t 
f f 


Report CheckSmoke 
t —3, 01 
f —17.58 


合并 Report 得 到 期 望 效用 一 22. 60( 考 虑 了 伟人 误差 ) 。 

因此 ， 返 回 的 最 优 策略 可 列 如 下 : 

checkSmoke<—report 

call_fire_department<—see_smoke 

call_fire_department<—report 人 "check_smokeN\ see_smoke 

最 后 一 个 规则 永远 也 不 会 用 到 ， 因 为 Agent 根据 最 优 策略 会 在 接收 到 报告 时 检查 烟雾 
情况 。 不 过 ， 在 执行 VE_DN 算法 时 ，Agent 在 优化 Call 时 不 知道 关于 CheckSmoke 的 最 
优 策略 。Agent 决定 是 否 要 检查 烟雾 时 ， 仅 考虑 可 用 烟雾 信息 做 什么 。 

还 需要 注意 ， 在 这 种 情况 下 ， 尽 管 检查 烟雾 情况 需要 付出 一 些 成 本 ， 但 是 这 个 检查 是 
值得 的 ， 因 为 检查 获得 的 信息 很 有 价值 。 < 

下 面 这 个 例子 说 明了 ， 在 VE 算法 优化 决策 时 ， 所 得 的 因子 中 的 决策 变量 是 如 何 包 含 
其 父 节 点 的 一 个 子 集 的 。 

【 例 9-19〗 考虑 例 9-11， 不 过 增加 了 一 个 从 Weather 到 Umbrella 的 边 ， 也 就 是 说 ， 
Agent 不 仅 要 观察 天 气 情况 ， 而 且 也 要 考察 天 气 预 报 的 情况 。 此 时 ， 没 有 需要 合并 的 随机 
变量 ， 从 而 生成 的 包含 了 决策 节点 和 其 父 节点 的 一 个 子 集 的 因子 就 是 原始 的 效用 困 子 。 因 
此 ， 使 Umbrella 最 大 化 的 决策 函数 和 因子 如 下 : 


Weather Umbrella Weather Vatue 
norain leavelt norain 100 


rain takelt rain 70 


MER, RAMROHARSRRSEHKA. MAK THR ARAREDA Agent 提供 任 
何 有 用 的 信息 。 

合并 Forecast 得 到 的 因子 均 为 1。 合并 Weather, HP P( Weather = norain) =0.7, 
得 到 的 期 望 效用 为 0.7X100 十 0. 3X70==91。 4 


94 信息 与 控制 的 价值 


【 例 9-20] 在 例 9-18 中 ， 检 查 烟雾 的 动作 CheckSmoke 为 火 情 提供 了 信息 。 检 查 烟雾 
的 成 本 是 20， 并 且 没 有 直接 的 回报 。 然 而 ， 在 一 个 最 优 策略 中 ， 当 有 报告 人 们 离开 建筑 物 
时 做 这 个 检查 是 值得 的 ， 因 为 Agent 可 以 根据 检查 获得 的 信息 做 出 下 一 步 的 动作 。 因 此 ， 
有 关 烟 雾 的 信息 对 于 Agent 来 说 是 很 有 价值 的 。 尽 管 有 关 烟 雾 的 信息 无 法 提供 是 否 有 火 情 
的 完美 信息 ， 但 该 信息 对 于 作出 决策 仍然 非常 有 用 。 < 

从 这 个 例子 得 到 的 一 个 重要 启发 是 搜集 信息 的 动作 ， 正 如 检查 烟雾 的 动作 check_for_ 
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smoke 一 样 ， 可 以 同样 的 方式 用 在 其 他 任何 动作 上 ， 如 打 电 话 给 消防 部 门 call_ fire_ 
department ,一 个 最 优 的 策略 常常 包含 以 搜集 信息 为 唯一 目的 的 动作 ， 只 要 后 续 的 动作 依 
赖 于 该 动作 产生 的 一 些 影响 。 大 多 数 的 动作 都 不 会 仅仅 提供 信息 ， 而 是 更 多 地 对 所 处 环境 
产生 直接 的 影响 。 

.对 于 Agent 来 说 ,信息 是 很 有 价值 的 ， 因 为 它 可 帮助 Agent 做 出 更 好 的 决策 。 

信息 i 对 于 决策 DD 的 信息 价值 (value of information) 是 一 个 依赖 于 也 及 其 后 续 决 策 的 
最 优 策略 在 获得 信息 i 时 的 期 望 效用 减 去 不 能 观察 到 i 的 最 优 策略 的 期 望 效 用 。 因 此 ， 在 
决策 网 络 中 ,信息 价 值 就 是 一 个 含有 以 i 为 DD 及 其 后 续 策略 的 父 节点 之 一 的 最 优 策略 的 效 
用 减 去 一 个 不 含有 以 i 为 D 的 父 节 点 的 最 优 策略 的 效用 。 

【 例 9-21) 在 例 9-11 中 ， 考 虑 获得 一 个 更 好 的 天 气 预 报 的 价值 。 为 决定 是 否 带 爹 ， 
获得 关于 天 气 的 完全 信息 的 价值 等 于 在 网 络 中 增加 一 条 从 Weather 到 Umbrella 的 边 时 的 
最 优 策略 期 望 效用 (在 例 9-19 中 计算 ， 其 结果 为 91) 减 去 原始 决策 网 络 最 优 策略 的 期 望 效 
用 (在 例 9-11 中 计算 ， 其 结果 为 77)。 因 此 ， 关 于 天 气 的 完全 信息 的 价值 是 91 一 77 二 14。 
这 是 另 一 个 感知 天 气 情况 的 传感器 的 价值 上 限 。 

信息 价值 限定 了 Agent 为 获得 支持 决策 d 的 信息 i 而 愿 付出 的 代价 (就 效用 的 损失 而 
言 )。 该 数值 是 有 关 决 策 d 的 信息 i 的 不 完全 信息 的 价值 上 限 。 不 完全 的 信息 是 指 类 似 于 
从 一 个 有 噪声 的 传感器 获得 的 信息 i。 为 获得 信息 i 而 付出 的 成 本 不 应 超过 信息 的 价值 。 

信息 的 价值 有 如 下 一 些 有 意思 的 属性 : 

。 信息 价值 不 会 是 负 值 。 最 坏 的 情况 是 Agent 忽略 这 个 信息 。 

。 如 果 一 个 最 优 决 策 总 是 做 同一 个 动作 ， 而 与 信息 i 的 取 值 无 关 ， 则 该 信息 i 的 价值 

为 0。 如 果 信 息 i 的 价值 为 0， 则 存在 一 个 不 依赖 于 信息 i 的 最 优 策略 ( 即 不 管 信 息 
i 取 何 值 ，Agent 总 是 选择 同一 个 动作 )。 

在 一 个 决策 网 络 中 ， 作 出 决策 d 时 的 信息 的 价值 可 以 通过 考虑 下 面 两 个 决策 网 络 来 
计算 ， 

。 决策 网 络 中 从 i 到 4 的 边 及 从 i 到 后 续 决 策 的 边 。 

。 决策 网 络 中 没有 这 样 的 边 。 

上 述 两 个 决策 网 络 的 最 优 策略 的 期 望 效用 之 差 即 为 作出 决策 4 时 信息 i 的 价值 。 当 加 
人 从 i 到 4 的 边 会 造成 环 时 ， 需 要 先 做 一 些 处 理 。 

【 例 9-22) 在 报警 问题 的 例子 中 ( 例 9-18)，Agent 可 能 想 知道 安装 一 个 中 继 报警 设 
备 一 一 从 而 可 以 直接 听 到 报警 声 而 不 是 依赖 于 人 们 离开 建筑 物 的 嘲 杂 声 一 一 是 否 值 得 。 为 
确定 该 中 继 报 警 设备 的 价值 ， 需 要 考虑 关于 报警 的 完全 信息 的 价值 。 如 果 信 息 价值 低 于 中 
继 报警 设备 的 成 本 ， 则 就 不 值得 安装 该 设备 了 。 

对 于 检查 烟雾 和 打 电 话 给 消防 部 门 的 决策 ， 关 于 报警 Alarm 的 信息 的 价值 可 这 样 计 
算 : 求解 图 9-9 的 决策 网 络 ， 及 求解 同一 个 决策 网 络 但 包含 了 从 报警 Alarm 到 检查 烟雾 
Check _for_smoke 的 边 和 从 Alarm 到 打 电 话 给 消防 部 门 Call_fire_department 的 边 。 原 始 
的 决策 网 络 的 期 望 效用 是 一 22.6。 新 的 决策 网 络 中 有 一 个 期 望 效 用 为 一 6. 3 的 最 优 策略 。 
两 个 决策 网 络 的 最 优 策略 的 期 望 效 用 之 差 为 16. 3 一 一 这 就 是 Alarm 对 于 决策 Check_for_ 
smoke 的 价值 。 如 果 中 继 报警 设备 的 成 本 为 20， 则 不 值得 安装 该 设备 。 

含有 从 Alarm 到 Call_fire_department 的 边 的 决策 网 络 的 期 望 效 用 为 一 6.3， 与 含有 
从 Alarm 到 Check _for_smoke 的 边 时 的 期 望 效 用 相同 。 在 最 优 策略 中 ，Check_for_smoke 
的 最 优 决 策 函 数 会 忽略 关于 Alarm 的 信息 ， 即 当 Alarm 是 Call_fire_department 的 父 节 
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点 时 ， 根 据 决策 网 络 的 最 优 策略 ，Agent 从 不 会 检查 烟雾 。 

控制 价值 (value of control) 明确 说 明 控 制 一 个 变量 的 价值 的 多 少 。 其 最 简单 的 形式 是 
将 一 个 决策 网 络 的 随机 变量 替换 成 决策 变量 ， 并 增加 相应 的 边 构 成 无 遗忘 网 络 时 ， 甚 最 优 
策略 的 期 望 效用 的 变化 量 。 随 机 变量 替换 为 决策 变量 后 ， 期 望 效用 的 变化 量 不 会 是 负 值 ; 
新 构成 的 决策 网 络 总 有 相等 或 更 高 的 期 望 效用 。 

【 例 9-23) 在 图 9-9 的 报警 决策 网 络 中 ， 你 可 能 会 对 控制 意外 干扰 感 兴趣 。 为 此 可 估 
算 为 增加 安全 性 而 防止 意外 干扰 的 价值 。 为 计算 这 一 点 ， 可 比较 图 9-9 中 的 决策 网 络 的 期 
望 效用 与 将 随机 变量 意外 干扰 Tampering 替换 为 决策 变量 (同时 也 成 为 另外 两 个 决策 节点 
的 父 节 点 ) 后 的 期 望 效 用 。 

初始 的 决策 网 络 的 期 望 效 用 是 一 22.6。 首 先 考 虑 该 变量 的 价值 。 如 果 Tampering fF 
为 Call 的 父 节点 ， 则 新 的 期 望 效用 为 一 21. 30。 如 果 Tampering 作为 Call 和 CheckSmoke 
的 父 节 点 ， 则 新 的 期 望 效用 为 一 20. 87 。 
”为 确定 该 变量 的 控制 价值 ， 先 将 Tampering 节点 改 为 决策 节点 并 将 它 作为 另外 两 个 
决策 节点 的 父 节点 。 新 构成 的 决策 网 络 的 期 望 效 用 为 一 20.71。 请 注意 , 在 这 里 控制 价值 
比 信息 价值 高 。 

在 原始 的 决策 网 络 中 ， 意 外 干扰 的 控制 价值 为 一 20.71 一 (一 22.6) 王 1.89。 在 观察 意 
外 干扰 的 情况 下 ， 意 外 干扰 的 控制 价值 为 一 20. 71 一 (20. 87) 一 0. 16。 < 

上 述 描述 适用 于 随机 变量 的 父 节 点 在 该 随机 变量 变 成 决策 变量 后 成 为 决策 变量 的 父 节 
点 的 情况 。 在 这 种 情形 下 ， 控 制 价值 从 不 会 是 负 值 。 然 而 ， 如 果 决 策 变 量 的 父 节 点 没有 包 
括 原 随机 变量 的 所 有 父 节 点 ， 则 控制 价值 有 可 能 少 于 信息 价值 。 一 般 来 说 ， 在 考虑 将 一 个 
随机 节点 转换 成 决策 节点 时 ， 必 须 明 确 决策 节点 可 用 的 信息 。 

【 例 9-24) 考虑 将 图 9-9 中 的 变量 Smoke 变 成 决策 变量 的 情况 。 如 果 火 情 Fire BR 
策 变 量 Smoke 的 父 节 点 ， 则 它 必然 是 Call 的 一 个 父 节 点 ， 从 而 构成 一 个 无 遗忘 网 络 。 在 
Smoke 决策 早 于 决策 checkSmoke 时 ， 生 成 的 网 络 的 期 望 效用 为 一 2.0。 在 这 种 情况 下 ， 将 
Smoke 转换 为 决策 变量 的 原因 是 对 Fire 的 观察 。 此 时 ， 最 优 的 策略 是 如 果 有 火 情 则 打 电 
话 给 消防 部 门 ， 否 则 就 不 打 电 话 。 

假设 将 Smoke 转换 为 决策 变量 ， 且 Fire 不 再 作为 该 决策 的 条 件 。 也 就 是 说 ，Agent 
不 得 不 自行 决定 是 否 有 烟雾 ， 且 Fire 也 不 作为 其 他 决策 的 条 件 。 这 种 情况 可 以 建 模 为 
Smoke 是 决策 变量 且 没 有 父 节点 。 此 时 ， 网 络 的 期 望 效 用 是 一 23. 20 一 一 劣 于 初始 的 决策 
网 络 ， 其 原因 是 盲目 地 控制 Smoke 造成 失去 了 感知 Fire 的 能 力 。 < 
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9.4 节 中 的 决策 网 络 具 有 有 限 个 阶段 和 部 分 可 观察 的 范围 。 本 节 讨论 具有 无 限定 时 域 
和 无 穷 时 域 的 问题 。 

通常 ，Agent 必须 为 一 个 持续 的 过 程 进行 推理 ， 即 它 不 知道 需要 推理 多 少 步 。 如 果 这 
个 过 程 永 远 持续 下 去 ， 则 称 该 类 问题 为 无 穷 时 域 (infinite horizon) 问 题 ， 如 果 Agent 最 终 
会 停止 推理 ， 但 不 知道 何 时 会 停止 推理 ， 则 称 该 类 问题 为 无 限定 时 域 (indefinite horizon) 
问题 。 为 了 给 这 种 情况 建 模 ， 我 们 扩展 马尔 可 夫 链 以 处 理 Agent 的 行动 。 在 每 一 个 阶段 ， 
Agent 决定 执行 哪个 问题 ; 结果 状态 取决 于 前 一 个 状态 和 执行 的 动作 。 

对 于 持续 的 过 程 ， 你 不 会 只 想 考虑 最 后 的 效用 ， 因 为 Agent 的 推理 有 可 能 永远 也 不 会 
结束 。 相 反 ，Agent 会 收 到 一 系列 的 回报 (reward) 。 这 些 回报 涵盖 了 执行 动作 的 成 本 ， 及 
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可 能 接受 的 奖励 或 惩罚 。 负 回报 被 称 为 惩罚 (punishment) 。 无 限定 时 域 问题 可 以 使 用 一 个 
停止 态 来 建 模 。 停 止 态 (stopping state) By MCAS (absorbing state) 是 所 有 的 动作 都 不 会 产 
生 任何 影 响 的 状态 ， 也 就 是 说 ， 当 Agent 进入 该 状态 后 ， 所 有 的 动作 都 会 直接 返回 ， 并 保 
持 状态 不 变 ， 且 回报 为 零 。 目 标的 成 绩 可 建 模 成 Agent 进入 停止 态 时 所 获得 的 回报 。 
我 们 只 考虑 平稳 的 (stationary) 模 型 ， 即 其 中 的 状态 转换 和 回报 大 小 都 不 依赖 于 时 间 。 
一 个 马尔 可 夫 决 策 过 程 (Markov decision Brocess，MDP) 的 组 成 如 下 : 


。 S， 各 种 情景 中 的 状态 集合 。 
。 A， 动 作 集 合 。 
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。 P; SXSXA->[0，1]， 用 来 描述 动态 性 ， 并 记 为 Pls |s, OHA 


Vs€ SVa€E A >)P(s'|s,a) =1 


特别 地 ，P(s'|s，a) 定 义 了 Agent HARA * 下 执行 动作 a 时 转向 状态 *' 的 概率 。 
© R: SXAXS- 只 ,其 中 Rs，a，Y) 定 义 了 执行 动作 a 并 从 状态 转向 状态 时 


的 期 望 回报 。 


动态 性 和 回报 都 可 以 是 随机 的 ， 即 转移 的 状态 和 回报 可 以 有 一 定 的 随机 性 ， 这 通过 在 
转移 状态 上 设置 概率 分 配 函 数 和 通过 R 确定 期 望 回报 来 实现 。 当 转移 状态 和 回报 依赖 于 尚 


未 在 MDP 模型 中 的 随机 变量 时 ， 它 们 也 是 随机 的 。 


图 9-12 的 决策 网 络 描述 了 一 个 马尔 可 夫 决 策 过 程 的 部 分 内 容 。 





图 9-12 表示 部 分 MDP 的 决策 网 络 
【 例 9-25〗 网 格 化 的 世界 是 机 器 人 的 一 个 理想 环境 。 任 何 时 刻 ， 机 器 人 在 某 个 位 置 并 


能 移 向 近邻 的 位 置 ， 并 为 此 获得 回报 或 者 接受 惩罚 。 假 设 机 器 人 的 动作 是 随机 的 ， 也 就 是 
说 结果 状态 服从 一 个 概率 分 布 ， 且 此 概率 依赖 于 执行 的 动作 和 所 处 的 状态 。 


9-13 是 一 个 10X10 的 网 格 世 界 ， 在 这 个 世 
界 中 机 器 人 可 以 执行 4 个 动作 : 向 上 、 向 下 、 向 左 、 
向 右 。 如 果 机 器 人 执行 了 其 中 一 个 动作 ， 则 该 动作 
有 0.7 的 概率 朝向 想 要 去 的 方向 , 分别 有 0. 1 的 概 
率 朝 向 另外 三 个 方向 。 如 果 碰 到 外 壁 ( 即 计算 出 的 位 
置 在 给 定 的 网 格 之 外 ) ， 则 需要 接受 1 个 单位 的 惩罚 
( 即 回报 为 一 1) 且 并 不 真正 移动 位 置 。 共 有 4 个 奖励 
状态 (除去 墙壁 ) : 一 个 奖励 为 十 10 的 位 置 (在 位 置 
(9，8) 处 ,第 8 行 第 9 列 )， 一 个 奖励 为 十 3 的 位 置 
(在 位 置 (8，3) 处 )， 一 个 奖励 为 一 5 的 位 置 (在 位 置 
(4，5) 处 )， 及 一 个 奖励 为 一 10 的 位 置 ( 在 位 置 (4， 
8) 处 ) 。 在 其 中 的 每 一 个 状态 ，Agent 在 该 状态 执行 





9-13 例 9-25 使 用 的 网 格 世 界 
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了 动作 后 才 获 得 奖励 ， 而 不 是 进入 该 状态 时 就 获得 奖励 。 当 Agent 到 达 状 态 (9，8) 时 ， 不 
管 它 下 一 步 做 什么 ， 它 都 会 在 网 格 世 界 的 四 个 角 中 任 选 一 个 并 移 过 去 。 

请 注意 ,在 这 个 例子 中 ， 回 报 是 初始 状态 和 最 终 状 态 的 函数 。 判 断 Agent 是 否 撞 到 了 
墙 上 的 方法 是 检查 Agent 是 否 发 生 了 实际 的 移动 。 仅 知道 Agent 的 初始 状态 和 动作 ， 或 者 
仅 知 道 最 终 状态 和 动作 ， 都 不 足以 提供 推断 回报 所 需 的 信息 。 < 

对 于 9. 3. 1 节 的 决策 网 络 , 设计 者 不 得 不 考虑 在 Agent 作 决 策 时 能 够 利用 哪些 信息 。 
这 里 有 两 种 常见 的 变化 : 

* 在 一 个 完全 可 观察 马尔 可 夫 决 策 过 程 (fully observable Markov decision process) 

中 ，Agent 在 决策 要 做 什么 动作 时 开始 观察 当前 的 状态 。 

。 一 个 部 分 可 观察 马尔 可 夫 决 策 过 程 (partially observable Markov decision process) 
是 一 个 MDP 和 一 个 隐 马 尔 可 夫 模 型 的 组 合 。 在 每 一 个 时 间 点 ，Agent 开始 根据 状 
态 做 一 些 观察 。Agent 在 作 决 策 时 可 以 访问 观察 和 之 前 动作 的 历史 情况 。 它 不 能 
直接 观察 当前 的 状态 。 

为 决定 要 做 什么 ，Agent 要 比较 不 同 的 回报 序列 。 完 成 这 个 比较 的 最 常见 方法 是 将 回 
报 序列 苇 换 成 称 为 值 (value) 或 累积 回报 (cumulative reward) 的 数值 。 为 此 目的 ，Agent 将 
直接 回报 与 将 来 的 其 他 回报 组 合 在 一 起 。 假 设 Agent 接收 到 的 回报 序列 如 下 : 


则 有 如 下 三 种 常见 的 将 回报 组 合成 值 V 的 方法 : 


总 回报 (total reward): V = Dr 。 此 时 ， 值 为 所 有 回报 之 和 。 如 果 你 能 保证 回报 之 


和 是 有 限 的 ， 则 这 种 办 法 就 是 适用 的 但 如 果 回 报 之 和 是 无 限 的 ， 则 无 法 比较 哪个 回报 序 
列 更 好 。 例 如 ， 一 个 回报 均 为 1 美元 的 无 限 序列 之 和 与 回报 均 为 100 美元 的 序列 之 和 相等 
(两 者 均 为 无 穷 大 ) 。 此 时 ， 回 报 之 和 变 为 有 限 的 情况 是 存在 一 个 终止 条 件 ; 当 Agent 总 是 
能 以 一 个 大 于 零 的 概率 进入 停止 状态 时 ， 回 报 之 和 就 是 有 限 的 了 。 

平均 回报 (average reward); V = lim(r; +--+7r,)/n. tN, Agent 的 值 评价 是 其 各 


时 刻 所 得 回报 的 平均 值 。 只 要 回报 是 有 限 的 ， 则 该 评价 就 是 有 限 的 。 不 过 ， 如 果 总 回报 是 
有 限 的 ， 则 平均 回报 就 变 成 了 0， 从 而 Agent 就 无 法 根据 此 数值 来 确定 该 执行 哪个 动作 ， 
因为 无 论 执 行 哪个 动作 ,平均 回报 都 是 0。 在 这 个 标准 下 ， 唯 一 重要 的 事情 是 Agent 会 在 
哪里 停止 。 任 何 有 限 的 不 佳 动作 序列 都 不 会 影响 最 终 的 极限 数值 。 例 如 ， 在 获得 100 万 美 
元 的 回报 之 后 每 次 仅 获得 1 美元 的 回报 ， 与 获得 0 美元 的 回报 之 后 每 次 都 获得 1 美元 的 回 
报 ， 其 平均 回报 是 相等 的 (它们 的 平均 回报 的 极限 均 为 1 美元 ) 。 

折扣 回报 (discounted reward): V = n Hyr Hri tee ty r tee ， 其 中 YY 是 折扣 
因子 (diseount factor)，0 志 7 二 1。 在 这 个 标准 下 ， 将 来 回报 的 重要 程度 要 低 于 当前 的 回 
报 。 如 果 > 等 于 1， 则 该 标准 与 总 回报 等 价 。 当 Y= 二 0 时 ，Agent 忽略 将 来 的 回报 。 无 论 总 
回报 是 否 是 有 限 的 ，0 志 7y 二 1 就 保证 了 该 标准 总 是 有 限 的 。 

折扣 回报 可 写 为 : 


Y 一 Syn 
i=l 
=n +m trr te ty n +e 
= rn + yir: 十 X +) 
假设 V. EANA k 开始 累积 回报 ， 则 有 : 
Vi = ret Cres HYO He) 
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= ry H WV m 

为 理解 V 的 性 质 ， 假 设 S=1 十 7 十 7 十 7 十 …， 则 有 S=1+yS. RRSBS= 
1/(1 一 7)。 因 此 ， 在 折扣 回报 的 标准 下 ， 将 来 的 全 部 值 至 多 是 1/ (1 一 7) 与 最 大 单 次 回报 的 
乘积 ， 至 少 是 1/(1 一 7) 与 最 小 单 次 回报 的 乘积 。 因 此 ， 相 比 立 即 得 到 的 回报 ， 从 现在 开始 
的 无 限时 间 内 的 值 是 有 限 的 。 这 与 平均 回报 不 同 。 在 平均 回报 的 标准 下 ， 立 即 回报 被 无 限 
时 间 的 累积 回报 所 支配 。 

在 经 济 学 中 ，7 与 利率 相关 : 现在 得 到 1 美元 等 价 于 一 年 后 得 到 1 十 i 美元， 其 中 i 为 
利率 。 你 可 以 把 折扣 率 看 做 Agent 的 生存 概率 ; y 可 以 看 成 是 Agent 继续 行动 下 去 的 概 
率 。 本 书后 面部 分 考虑 的 是 折扣 回报 。 

一 个 平稳 策略 (stationary policy) 是 一 个 函数 x:S 一 A， 即 该 函数 给 每 一 个 状态 指定 一 
个 动作 。 给 定 一 个 回报 标准 后 ， 一 个 策略 可 为 每 一 个 状态 计算 出 期 望 值 。 设 V"(s) 是 在 状 
态 s 下 由 x 给 出 的 期 望 值 。 这 反映 了 Agent 在 该 状态 下 按照 策略 x 行动 时 获得 的 期 望 值 。 
如 果 不 存在 一 个 策略 x 及 状态 s WE V (D> VCs), WER r 为 最 优 策 略 。 也 就 是 说 ， 
对 于 每 一 个 状态 ， 该 策略 比 其 他 策略 具有 更 高 或 相等 的 期 望 值 。 

对 于 无 穷 时 域 问题 ， 一 个 平稳 的 MDP 总 有 一 个 最 优 的 平稳 策略 。 然 而 ， 对 于 有 限 阶 
段 问 题 却 不 是 如 此 一 一 在 该 问题 中 ,一 个 非 平稳 策略 可 能 要 好 于 所 有 的 平稳 策略 。 例 如 ， 
如 果 Agent 不 得 不 在 时 刻 n 时 停止 ， 在 某 个 状态 下 做 出 最 后 一 个 决定 ， 则 Agent 可 能 执行 
能 够 获得 最 大 的 立即 回报 的 动作 而 不 再 考虑 将 来 的 动作 ， 但 在 之 前 处 于 同一 状态 时 的 决策 
中 ， 它 可 能 会 决定 执行 一 个 获得 较 低 立即 回报 但 有 望 随后 获得 较 大 回报 的 动作 。 


9.5.1 策略 值 


对 于 折扣 率 为 y 的 折扣 回报 ， 策 略 oe 的 期 望 值 由 两 个 相互 关联 的 函数 V" 和 Q" 定义 。 

设 Q"(s，a) 是 在 状态 s 下 根据 策略 x 执行 动作 a 时 的 期 望 值 。 回 想 一 下 ，V”"(s) 是 在 
RE s 下 遵循 策略 x 的 期 望 值 。 

Q" 和 Vr" 彼此 可 以 递归 定义 。 如 果 Agent 处 于 状态 s， 执 行动 作 a 并 到 达 状态 * ， 它 就 
得 到 立即 回报 R(s，a，s ) 及 将 来 的 折扣 回报 Vs). Æ Agent 做 规划 时 ， 它 并 不 知道 确 
切 的 结果 状态 ， 因 此 它 使 用 期 望 值 ， 即 所 有 结果 状态 的 值 的 平均 值 : 


Qr(s,a) = 2 PCs' | ssa) (RCssass’) + yV*(s')) (9. 2) 
其 中 V"(s) 可 通过 执行 策略 x 确定 的 动作 并 按照 该 策略 执行 得 到 : 

V™(s) = Q" (s,zls)) 
9.5.2 最 优 策略 值 


设 Q*(s，a) 是 Agent 在 状态 s 下 执行 动作 a 并 遵循 最 优 策略 的 期 望 值 。 设 V"(s) 是 
从 状态 * 开始 遵循 最 优 策 略 的 期 望 值 。 
Q" 的 定义 类 似 于 Q 的 定义 : 


Q' (ssa) = DIPC |s) RCs) + WV" (s)) (9. 3) 
HPV" (s) 是 在 每 个 状态 中 执行 使 得 值 最 大 的 动作 所 得 的 值 : 
V’ (s) = maxQ" (s,a) 


最 优 策略 r 是 使 得 Agent 在 每 一 个 状态 下 均 能 获得 最 大 值 的 策略 : 
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x” (s) = arg maxQ* (s,a) 


请 注意 ，arg max, Q CG, JERA s 的 一 个 函数 ， 其 值 为 使 Q (ss，w) 最 大 的 动作 a. 
95.3 {Bik 


{AGERE — STA MDP 策略 及 其 值 的 方法 。 

值 迭 代 从 一 个 “终点 ”开始 ， 然 后 不 断 向 后 计算 ， 逐步 精 化 Q" RV" 的 估计 值 。 算 法 没 
有 真正 的 终点 ， 因 此 它 需 要 有 一 个 人 为 指定 的 终点 。 设 Vi 为 阶段 & 的 值 函 数 ，Q 为 阶段 
k 的 QQ 函数。 它们 可 以 递归 定义 。 值 兴 代 从 一 个 任意 的 函数 V。 开始 ， 然 后 使 用 下 面 的 方 
程式 从 & 阶段 的 函数 得 到 十 1 阶段 的 函数 : 

Qin (ssa) = DIPC | ssa) (Rlssass) + Vils')) k>0 


Vils) = maxQ,(s,a) k>O 


计算 过 程 中 可 选择 存储 VSIA. he AE QLS，A ] 数 组 。 存储 V 数组 需要 的 
空间 少 ,但 确定 一 个 最 优 动作 比较 困难 ， 并 且 需 要 更 多 一 次 迭代 来 确定 哪个 动作 的 价值 
最 大 。 
9-14 显示 了 存储 V 数组 的 值 迁 代 算法 。 无 论 初始 值 函 数 V。 的 取 值 为 何 ， 该 过 程 都 
是 收敛 的 。 接 近 V 的 初始 值 函 数 比 远离 V' 的 初始 值 函 数 的 收敛 速度 快 。 许 多 MDP 的 提 
取 技 术 的 基础 是 使 用 一 些 启发 式 方法 来 近似 V" 并 将 该 近似 值 作为 值 欠 代 的 初始 种 子 。 


l: procedure Value_Iteration(S, A, P, R, 0) 
Inputs 
S: 所 有 状态 的 集合 
A: 所 有 动作 的 集合 
P: 状态 转换 函数 PO |s a) 
R: MRA RE, a, s) 
0: 一 个 阅 值 ， 9 二 0 
Output 
LS]: 近似 最 优 策略 
VES]: 值 函 数 
Local 
实数 取 值 的 数组 wxLS]， 一 个 值 函数 序列 
动作 数组 CS] 
为 Vo[S] 任 意 赋值 
k:=0 
repeat 
k:=k+1 
for each 状态 s do 
V.[s]=max . >) PG | ssa) (RCs,ays') + Wii ls’) 


until Y s | Va [s]— Va [s] | <@ 
for each 状态 s do 
al sl]=arg max, >, P(s' | s,a)(R(s,a,s') + yV,[s']) 





return x, V, 
图 9-14 MDP MERA, 存储 数组 V 


【 例 9-26) 考虑 例 9-25 中 回报 为 十 10 的 格子 及 其 周围 的 格子 。 折 扣 为 7 二 0. 9。 对 于 
所 有 的 状态 s， 假 设 算法 的 初始 值 函数 为 Vo[Lsj] 二 0。 
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对 于 上 述 9 个 格子 ， 假 设 值 函 数  、V: 和 V: 的 取 值 如 下 : 


o o [=er] [eo [esq =or 
o [ae oa] [ea ee oz | 
o fo [or] Lo [es [mor] 


BWM. HAARA HARMA ER. E K h a A E A + 10 的 状 
态 。 右 边 节点 的 值 为 一 0.1， 从 而 其 最 优 动作 为 向 上 、 向 左 和 向 下 ; 这 些 动作 都 有 0. 1 的 
概率 撞 到 墙 上 去 ， 此 时 的 回报 为 一 1。 | 

中 间 的 网 格 表示 了 V;， 即 第 二 步 值 迭代 后 的 函数 值 。 考 虑 十 10 回报 状态 左边 直接 
相 邻 的 节点 : 其 最 优 值 为 向 右 ; CA 0. 7 的 概率 在 下 一 个 状态 得 到 10 的 回报 ， 因 此 其 
价值 为 9(10 乘 折 扣 率 0.9); 其 他 可 能 状态 的 期 望 回报 为 0。 因此 ， 上 述 状 态 的 值 为 
0.7X9=6.3, . 

考虑 第 二 步 值 迭代 后 十 10 回报 状态 的 右边 直接 相 邻 的 节点 。Agent 在 此 状态 时 的 最 优 
动作 是 向 左 ， 该 状态 的 值 为 : 





概率 回报 未 来 价值 

0.7X( 0 + 0.9X10) Agent 向 左 
十 0.1X( 0 + 0.9X—0.1 Agent 向 上 
+ 0.1X¢ 一 ] ”十 0.9X 一 0.1) Agent fa 
十 0.1X( 0 十 0.9X 一 0.1) Agent 向 下 


最 后 得 到 的 值 为 6. 173。 

请 注意 十 10 回报 状态 的 值 是 如 何 小 于 10 的 。 这 是 因为 Agent 冲 向 了 某 个 角落 ， 而 这 
些 角落 在 此 时 是 不 佳 的 状态 。 

再 做 一 次 值 迭 代 ( 见 上 图 的 右边 )， 十 10 回报 状态 的 影响 更 进一步 。 特 别 的 ， 角 落 状 
态 得 到 的 值 表示 了 3 次 迭代 后 的 回报 。 

本 书 网 站 上 有 一 个 applet 小 程序 演示 了 本 例 值 迭 代 的 详细 过 程 。 Ej 

图 9-14 中 的 值 迁 代 算法 为 每 一 个 阶段 设置 了 一 个 数组 ， 但 实际 上 仅 需 要 保存 当前 数 
组 和 前 一 个 数组 。 算 法 可 轮换 地 根据 一 个 数组 的 值 更 新 另 一 个 数组 的 值 。 

该 算法 的 一 个 常见 改进 是 异步 值 迭代 (asynchronous value iteration) 。 与 计算 完 所 有 状态 
然后 再 创建 一 个 新 的 值 函 数 的 税法 不 同 ， 异 步 值 迭代 在 计算 了 一 个 状态 后 立即 进行 更 新 ( 任 
意 顺 序 都 可 以 )， 并 将 这 些 值 保存 在 一 个 数组 中 。 蜡 步 值 选 代 可 以 保存 QLs，aj] 数 组 ， 也 可 以 
保存 V[5] 数 组 。 图 9-15 给 出 了 异步 值 迭 代 算 法 过 程 ， 其 中 保存 了 Q 数 组 。 该 算法 比值 迭代 
算法 的 收敛 速度 更 快 、 占 用 空间 更 少 ， 是 一 些 强化 学 习 算 法 的 基础 。 如 果 Agent 必须 要 保证 
一 定 的 误差 范围 ， 则 算法 的 终止 条 件 就 很 难 确定 ， 除 非 仔 细 考 虑 动作 和 状态 的 选择 。 通 常情 
况 下 ， 这 个 过 程 无 限期 地 运行 ， 同 时 做 好 回答 关于 最 优 动作 的 最 佳 估计 的 询问 。 

异步 值 迭 代 也 可 以 通过 仅 存 储 V[s] 数 组 来 实现 。 此 时 ， 算 法 选择 一 个 状态 s 并 通过 下 
式 更 新 : 

Vis] = max >) P(s' | ssa) (R(s,ass') + VESD 


尽管 这 个 算法 存储 了 较 少 的 信息 ， 但 要 抽取 出 策略 却 更 加 困难 。 它 需要 一 个 额外 的 备 
份 ， 以 确定 哪个 动作 a 产生 的 价值 是 最 大 的 。 这 可 用 下 式 实现 ， 
zls] = arg max >) P(s' | ssa) (RCssass') + YVES D 


406 


407 


270 第 三 部 分 “学习 与 规划 


1: procedure Asynchronous_Value_Iteration(S, A, P, R) 
Inputs 
S: 所 有 状态 的 集合 
A: 所 有 动作 的 集合 
P: 状态 转换 函数 PCs’ |s, a 
R: 回报 函数 RCs, a, s) 
Output 
mls]: 近似 最 优 策略 
QLS， A]: 值 函 数 
Local 
实数 数组 QLS，A4A] 
动作 数组 xLS] 
为 QLS，4] 赋 任意 的 初始 值 


Qs,a] = DP’ | ssa) (R(s,ays’) + ymax, Q[s’ ,a']) 
until 结束 条 件 
for each 状态 s do 

x{s]=arg max, Q[s, a] 
return r, Q 





9-15 MDP WR HEERA E 


【 例 9-27〗 在 例 9-26 中 ， 从 十 10 回报 状态 向 上 一 步 再 向 左 一 步 的 状态 的 值 是 在 进行 
了 三 次 值 迭代 之 后 才 更 新 的 。 在 上 述 三 次 值 迭 代 中 ， 所 有 的 状态 都 进行 了 计算 。 

在 异步 值 迭 代 中 ， 可 以 首先 选择 十 10 回报 状态 。 然 后 可 选择 向 左 一 步 ， 并 可 计算 出 
其 值 为 0.7X0.9X10==6. 3。 然 后 可 选择 该 节点 上 面 的 那个 节点 ， 并 可 计算 其 值 为 0.7X 
0.9X6. 3 一 3. 969。 请 注意 ， 在 考虑 了 3 个 状态 (而 不 是 300 个 状态 ， 就 像 值 迭代 中 那样 ) 
后 得 到 的 这 个 值 就 反映 了 它 接近 于 一 个 十 10 回报 状态 。 a 


9.5.4 策略 迭代 


策略 迭代 (policy iteration) 从 一 个 策略 开始 ， 然 后 迭代 改进 它 。 算 法 从 任意 一 个 策略 
xo( 越 接近 最 优 策略 越 好 ) 开 始 ， 然 后 执行 下 面 的 步 又， 其 中 i 从 0 开始。 
。 策略 评估 : MEVS. V 由 一 组 共 |S | 个 线性 方程 定义 ， 其 中 有 | S| 个 未 知 变 
量 。 这 些 未 知 变量 就 是 V%(S) 的 取 值 。 每 一 个 状态 对 应 一 个 方程 。 这 个 线性 方程 
组 可 用 解 线性 方程 组 的 方法 (如 高 斯 消去 法 ) 求 解 ， 或 者 可 以 用 迭代 的 方式 求解 。 
° 策略 改进 : 选择 Ni+1(5) =arg max,Q* (s, a), 其 中 Q 值 可 使 用 式 (9. 2) 根 据 V 的 
值 计算 出 来 。 为 检测 算法 何 时 已 经 收敛 ， 应 该 仅 在 某 些 状态 下 的 新 动作 改进 了 期 
望 值 时 才 改 变 策略 ， 也 就 是 说 ， 如 果 x;(;) 是 一 个 使 Qi(s，a) 最 大 的 动作 ， 则 应 
该 将 Ait1(5) 设 为 zi (3)。 
。 当 策略 不 再 变动 时 停止 ， 即 ma 二 zi IE; SM, 增 1 并 重复 本 过 程 。 
算法 如 图 9-16 所 示 。 请 注意 ， 该 算法 仅 保留 了 最 新 的 策略 ， 并 知道 它 是 否 已 被 改变 。 
该 算法 总 会 停止 ， 且 通常 不 会 欠 代 很 多 步 。 不 幸 的 是 ， 解 线性 方程 组 通常 很 耗 时 。 
一 个 策略 迁 代 算法 的 改进 ， 称 为 改进 的 策略 迭代 (modified policy iteration) ， 是 利用 
算法 并 不 要 求 Agent 评估 策略 这 个 特点 而 得 到 的 ; 算法 可 以 备份 多 步行 动 (使 用 式 (9. 2))， 
然后 再 做 改进 。 
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l: procedure Policy Iteration(S. A, P, R) 
2: Inputs 

3: S: 所 有 状态 集合 

4: A: 所 有 动作 集合 

5: P: 状态 转移 函数 PO |s, a) 

6: R: MHAM RC, a, 5’) 



















7: Output 
8: 最 优 策略 r 
9 : Local 


10: 动作 数组 xLS] 

ll; 布尔 变量 noChange 

12: 实数 数组 VES] 

13; ”设置 任意 一 个 策略 x 

14: repeat 

15; noChange+true 

16: 求解 V[s] = DP | sels D (R(s,a+s') + WE'D 
3 到 S 


17: for each s€ S do 

18; 设 QBest=V[s] 

19; for each aC A do 

20: Let Qa = >)P(s | s,a)(R(s,a,5") + Ws") 
ves 














21: if Qsa>QBest then 
22; ns]+a 

23; QBest=Qsa 

24; noChange= false 
25; until noChange 

return x 







9-16 MDP 的 策略 迭代 算法 


对 于 过 于 庞大 而 难以 直接 用 MDP 表示 的 系统 ,策略 迭代 所 蕴含 的 思想 是 可 供 借 鉴 的 。 
假设 一 个 控制 器 有 一 些 参数 ， 这 些 参数 的 取 值 能 够 变化 。 对 一 些 环 境 s 中 的 参数 a 的 累积 
折扣 回报 的 导数 的 估计 (对 应 于 Q(a，s) 的 导数 )， 能 够 用 来 改进 参数 。 这 样 迭 代 改 进 的 控 
制 器 能 够 陷入 一 个 非 全 局 最 大 的 局 部 极 大 。MDP 的 策略 闪 代 不 会 停止 在 非 最 优 的 局 部 极 
大 ， 因 为 在 那 种 状态 下 ， 可 以 改进 一 个 状态 下 的 动作 而 不 影响 其 他 的 状态 ， 然 而 ， 对 参数 
的 更 新 能 够 一 下 子 影 响 许多 状态 。 


9.5.5 动态 决策 网 络 


MDP 是 基于 状态 的 表示 。 在 本 节 ， 我 们 考虑 一 个 基于 特征 的 MDP 扩展 ， 它 是 决策 理 
论 规 划 (decision theoretic planning) 的 基础 。 

动态 决策 网 络 (dynamic decision network，DDN) 的 表示 有 多 种 形式 : 

。 MDP 的 因子 化 表示 : 其 中 的 状态 描述 为 特征 ; 

。 决策 网 络 的 扩展 : 允许 重复 进行 中 的 动作 和 状态 的 变化 ; 

。 动态 信念 网 络 的 扩展 : 包含 了 动作 和 回报 ; 

。 动作 的 基于 特征 的 表示 的 扩展 : 允许 动作 的 影响 具有 不 确定 性 。 

一 个 完全 可 观察 的 动态 决策 网 络 的 组 成 如 下 : 

。 一 个 状态 特征 的 集合 ， 每 一 个 特征 有 一 个 值 域 ; 

。 由 一 个 可 能 动作 的 集合 构成 的 决策 节点 A， 决 策 的 值 域 即 为 动作 集合 ; 
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。 一 个 有 一 个 动作 节点 A、 对 应 于 每 一 个 特征 下 的 节点 下。 和 Fi (分别 表示 时 刻 0 和 
时 刻 1 时 的 特征 )， 及 一 个 条 件 概 率 PCF, | parents(F1)) 的 两 阶段 信念 网 络 ， 其 中 
Fi 的 双亲 节点 可 以 包括 节点 A 和 时 刻 0、 时 刻 1 的 特征 ， 只 要 所 得 的 网 络 是 无 
环 的 ; 
。 一 个 回报 函数 ， 它 是 动作 和 时 刻 0 与 时 刻 1 的 任意 特征 的 函数 。 
405 正如 动态 信念 网 络 中 的 那样 ， 时 刻 1 的 特征 能 被 复制 作为 后 续 时 刻 的 特征 。 

【 例 9-28) 考虑 将 例 8-1 的 一 个 随机 版 本 表示 为 一 个 动态 决策 网 络 。 我 们 使 用 与 例 8-1 
中 相同 的 特征 。 

RLoc, 的 双亲 为 RLoc Fl A. RHC, 的 双亲 为 
RHC。、A 和 RLoco。; 机 器 人 是 否 有 咖啡 取决 于 它 之 
前 是 否 有 咖啡 、 它 做 过 什么 动作 以 及 它 的 位 置 。 

SWC, 的 双亲 包括 SWC, RHC, A 和 RLocv 。 
你 不 会 认为 RHC, 和 SWC, 是 独立 的 ， 因 为 它们 都 依 
赖 于 咖啡 是 否 被 成 功 送 到 。 这 可 以 通过 将 其 中 一 个 设 
为 另 一 个 的 双亲 节点 来 表示 。 在 时 刻 1， 两 阶段 信念 
网 络 的 状态 变量 依赖 于 选择 的 动作 及 图 9-17 中 的 其 
他 状态 变量 。 该 图 也 表示 了 回报 是 动作 的 函数 ， 该 动 
作 可 以 是 Sam 不 再 想 要 咖啡 ， 也 可 以 是 等 待 到 信 。 

另外 一 个 建 模 RHC, 和 SWC, 间 的 依赖 关系 的 方 
法 是 引入 一 个 新 的 表示 咖啡 是 否 在 时 刻 1 成 功 送 到 的 
变量 CSD; 。 该 变量 是 RHC, 和 SWC, KWH. Sam FE AE 回报 状态 
是 否 想 要 咖啡 是 Sam 之 前 是 否 想 要 咖啡 及 咖啡 是 否 成 ” 图 9-17 表示 了 两 阶段 信念 网 络 和 
功 送 到 的 函数 。 机 器 人 是 否 有 咖啡 取决 于 其 动作 和 位 回报 结构 的 动态 决策 网 络 
置 ， 以 此 来 建 模 机 器 人 端 起 咖啡 这 件 事 。 相 似 地 ，MW, 与 RHM, 间 的 依赖 关系 可 通过 引 
入 一 个 表示 是 否 成 功 拿 起 信件 的 变量 MPU, 来 建 模 。 其 结果 对 应 为 图 9-18 中 的 有 2 层 的 

mo] DDN, 但 略 去 了 回报 。 4 





Me Sc) 





State, Action, State, Action, State, 
9-18 有 2 层 结构 的 带 有 中 间 变 量 的 动态 决策 网 络 ， 略 去 了 回报 节点 


作为 此 类 决策 网 络 的 一 部 分 ， 我 们 也 应 该 为 关于 动作 和 回报 的 可 用 信息 建 模 。 在 一 个 
完全 可 观察 动态 决策 网 络 中 ， 动 作 的 双亲 都 是 之 前 的 状态 变量 。 因 为 这 一 点 可 通过 推理 得 
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到 ， 因 此 相应 的 边 通常 并 不 绘 出 。 如 果 回 报 仅 出 现在 最 后 ， 就 能 直接 应 用 决策 网 络 的 变量 
消除 法 (如 图 9-11 所 示 )。 请 注意 ， 对 此 工作 ， 我们 不 要 求 无 遗忘 条 件 ; 有 了 完全 可 观察 
条 件 就 足够 了 。 如 果 在 每 一 步 都 要 收集 回报 ， 必 须 对 算法 进行 扩充 以 适应 回报 的 累加 。 参 
考 习 题 9. 12 。 


9. 5.6 部 分 可 观察 决策 过 程 


部 分 可 观察 马尔 可 夫 决 策 过 程 (POMDP) 是 MDP 和 隐 马 尔 可 夫 模 型 的 组 合 。 其 中 不 
再 假设 状态 是 可 观察 的 ， 而 是 假设 Agent 在 必须 行动 之 前 仅 可 得 到 部 分 和 /或 有 噪声 的 
观察 。 
一 个 POMDP 由 以 下 部 分 组 成 : 
。 S: 环境 中 的 状态 集合 。 
。 A: 动作 集合 。 
。 O: 可 能 得 到 的 观察 的 集合 。 
© PCS): 初始 状态 的 概率 分 布 。 
.。 P(S'|S, A): 指定 了 动态 性 ， 即 在 状态 S 下 执行 动作 A 从 而 转换 到 S 的 概率 。 
。 R(S, A, S): 在 状态 S 下 执行 动作 A 并 转换 到 状态 S 的 期 望 回报 。 
。 P(O|S): 在 状态 S 下 能 够 观察 到 O 的 概率 。 411 
POMDP 的 有 限 部 分 可 用 决策 图 表示 ， 如 
图 9-19 所 示 。 
计算 POMDP 的 最 优 策 略 的 方法 主要 有 三 种 : 
。 使 用 决策 网 络 的 变量 消除 法 来 求解 动态 
决策 网 络 ( 如 图 9-11， 需 要 扩展 以 处 理 折 
扣 回 报 )。 创 建 的 策略 是 Agent 历史 的 一 
个 函数 。 使 用 此 方法 的 问题 是 Agent 的 历 
史 是 无 界 的 ， 且 可 能 的 历史 数量 在 规划 
过 程 中 是 以 指数 增长 的 。 
。 策略 是 信念 状态 的 一 个 函数 ， 即 是 各 种 状态 上 的 概率 分 布 。 维 护 信 念 状态 是 一 个 
滤波 问题 。 该 方法 的 问题 是 : 对 于 nn 个 状态 ， 信 和 念 状态 集合 是 一 个 (n 一 1) 维 的 实 
数 空间 。 然 而 ， 因 为 一 系列 动作 的 值 仅 依赖 于 状态 ， 所 以 期 望 值 是 状态 值 的 一 个 
线性 函数 。 因 为 规划 以 观察 为 条 件 ， 且 对 任意 信念 状态 我 们 仅 考 虑 其 最 优 动作 ， 
所 以 任意 有 限 前 瞻 的 最 优 策略 是 分 段 线 性 和 凸 的 。 
。 搜索 控制 器 的 空间 找到 最 好 的 控制 器 。 由 此 ，Agent 根据 其 信念 状态 和 观察 搜索 
要 记忆 哪些 、 要 怎么 做 。 请 注意 ， 前 两 个 方法 是 此 方法 的 两 个 实例 ， Agent 记忆 
了 其 所 有 的 历史 ,或 Agent 有 一 个 信念 状态 且 该 状态 是 所 有 可 能 状态 的 概率 分 布 。 
通常 ，Agent 希望 记忆 其 一 部 分 的 历史 ， 但 对 另外 一 些 特征 有 概率 选择 的 能 力 。 
因为 对 要 记忆 哪些 没有 加 以 限制 ， 所 以 搜索 空间 是 巨大 的 。 


9.6 本 章 小 结 


。 效用 是 衡量 偏好 的 指标 ， 而 偏好 包含 有 不 确定 性 。 
。 决策 网 络 可 以 使 用 特征 来 表示 一 个 有 限 阶 段 的 部 分 可 观察 顺序 决策 问题 。 





图 9-19 POMDP 的 动态 决策 网 络 表示 


[413] 
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*。 MDP 可 以 使 用 状态 来 表示 无 穷 阶段 或 无 限定 阶段 顺序 决策 问题 。 
* 完全 可 观察 MDP 能 够 使 用 值 和 迭代 或 策略 迭代 算法 求解 。 
。 动态 决策 网 络 可 使 用 特征 来 表示 MDP. 
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9.8 习题 
9.1 学 生 必须 对 每 门 课 的 学 习 程 度 作出 决策 。 这 个 问题 的 目的 是 研究 如 何 使 用 决策 网 络 ， 以 帮助 他 们 做 
出 这 样 的 决定 。 


假设 学 生 首先 要 决定 为 了 期 中 考试 要 学 习 多 少 。 他 们 可 以 选择 学 习 很 多 ， 学 习 一 点 儿 ， 或 者 不 
学 习 。 他 们 是 否 通过 期 中 考试 取决 于 他 们 学 习 的 多 少 及 课程 的 难度 。 作 为 一 阶 近似 ， 如 果 他 们 学 习 
努力 ， 或 课程 简单 且 学 习 了 一 点 儿 ， 则 他 们 能 够 通过 期 中 考试 。 在 得 到 期 中 考试 的 分 数 之 后 ， 他 们 
必须 决定 为 了 期 末 考 试 要 做 出 怎样 的 努力 。 与 之 前 一 样 ， 期 未 的 成 绩 与 他 们 的 努力 程度 和 课程 的 难 
易 有 关 。 他 们 的 最 后 分 数 取决 于 他 们 通过 了 哪些 考试 。 一 般 地 ， 如 果 他 们 通过 了 两 次 考试 ， 则 分 数 
AA; 如 果 仅 通过 了 期 末 考 试 ， 则 得 分 为 B; 如 果 仅 通过 期 中 考试 ， 则 得 分 为 Ci 如 果 两 次 考试 都 
没有 通过 ， 则 得 分 为 上 。 当 然 ， 在 这 个 评分 标准 中 存在 着 大 量 的 噪声 。 

假设 他 们 最 后 的 效用 依赖 于 他 们 学 习 的 总 付出 和 他 们 最 后 的 成 绩 。 假 设 学 习 总 付出 是 为 期 中 考 
试 而 做 出 的 学 习 付 出 加 上 为 期 未 考试 而 做 出 的 学 习 付 出 。 

Ca) 根据 以 上 描述 画 出 学 生 作 决 策 的 决策 网 络 。 

(b) 每 一 个 变量 的 值 域 是 什么 ? 

(c) 给 出 一 个 合理 的 条 件 概率 表 。 

(d) 最 优 结果 是 什么 (此 时 的 效用 为 100)? 最 差 的 结果 是 什么 (此 时 的 效用 为 0)? 

(e) 为 一 个 只 想 通过 考试 (不 得 FF) 的 学 生 设 计 一 个 合适 的 效用 函数 。 该 学 生 的 最 优 策略 是 什么 ? 
CD 为 一 个 想 做 到 很 好 的 学 生 设 计 一 个 合适 的 效用 函数 。 该 学 生 的 最 优 策略 是 什么 ? 


9.2 考虑 下 面 的 决策 网 络 ; 
人 
RS por a 


PABA T —TKFAGEA THERM RE. 
假设 P( Watched) =0.4, P(Troubiel | Cheat], Watched)=0.8, Xi FHA AR, Troublel 


为 真 的 概率 为 0。 假设 条 件 概率 PC Trouble2 | Cheat2, Troublel, Watched) h F RAH: 








9. 3 


9. 4 
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Cheat2 Troublel Watched | P(Trouble2=t) 





假设 效用 设置 如 下 : 


Trouble2 Cheat2 Utility 





(a) 变量 Cheat? 的 最 优 决策 函数 是 什么 ? 请 说 明 创建 了 哪些 因子 。 请 首先 手工 解答 ， 然 后 使 用 AIspace org 
小 程序 验证 。 

Cb) 最 优 策略 是 什么 ?其 值 为 多 少 ? 列 出 创建 的 表格 。 

O 如 果 被 观察 到 (Watched) 的 概率 增加 ， 最 优 策略 又 是 怎样 的 ? 

Cd) 如 果 作 弊 的 效用 减少 ， 最 优 策略 又 是 怎样 的 ? 

Co) 当 教师 对 于 以 前 的 作弊 不 是 很 宽恕 (不 很 健忘 ) 时 ， 最 优 策略 会 是 怎样 的 ? 

假设 在 一 个 决策 网 络 中 ， 决 策 变量 Run 的 双亲 节点 为 Look 和 See 。 假 设 你 使 用 VE( 变 量 消除 ) 法 来 

求 得 最 优 策 略 ， 且 在 消除 了 其 他 所 有 的 变量 后 ， 剩 下 如 下 的 变量 ， 





(a) 消除 变量 Run 后 得 到 的 结果 是 什么 ? GER: 你 不 必 对 变量 Run 加 和 ， 因 为 它 是 决策 变量 。) 
b) 变量 Run 的 最 优 决 策 函 数 是 什么 ? 

假设 在 决策 网 络 中 有 从 随机 变量 “contaminated specimen” Ail“ positive test” 到 决策 变量 “discard sam- 
ple” 的 边 。Sally 求解 决策 网 络 并 发 现 其 中 只 有 一 个 最 优 策 略 如 下 : 


contaminated specimen positive test discard sample 





在 这 种 情况 下 ， 你 认为 信息 的 值 是 怎样 的 ? 
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例 9-13 所 示 的 决策 网 络 的 结果 对 概率 的 敏感 性 如 何 ? 使 用 不 同 的 条 件 概率 测试 这 个 例子 并 观察 其 
对 结果 的 影响 。 讨 论 最 优 策略 及 其 期 望 值 的 灵敏 性 。 
在 例 9-13 中 ,假设 火 传感器 的 噪声 较 大 ， 它 的 误 肯定 率 有 20%: 
P(see_smoke | report N ~smoke) =0. 2 
且 有 15% 的 误 否 定 率 : 
P(see_smoke | report N smoke) =0. 85 
此 时 ， 用 它 来 测定 烟雾 还 有 价值 吗 ? 
考虑 习题 6-8 所 示 的 信念 网 络 。 当 观察 到 警报 时 ， 需 要 做 出 是 否 关 闭 反 应 堆 的 决策 。 关 闭 反 应 堆 的 
代价 为 c, (该 代价 独立 于 反应 堆 核 心 是 否 过 热 )， 而 不 关闭 核心 过 热 的 反应 堆 会 付出 c 的 代价 一 一 
这 要 比 MBE. 
Ca) 画 出 初始 系统 ( 即 只 有 一 个 传感器 的 系统 ) 中 该 决策 问题 的 决策 网 络 。 
(b) 对 于 必须 定义 的 新 因子 (在 定义 新 因子 时 ， 表 格 中 合适 的 地 方 应 该 使 用 c 和 <c<。)， 请 给 出 具体 的 
表格 。 假 设 效 用 是 代价 的 负 值 。 
请 解释 在 MDP 中 ， 为 什么 常常 对 未 来 的 回报 使 用 一 定 的 折扣 率 。 在 折扣 率 取 值 分 别 为 0.6 和 0.9 
的 情况 下 ，Agent 的 行动 有 什么 不 同 ? 
考虑 下 面 的 游戏 环境 : 





机 器 人 可 以 在 网 格 中 的 25 个 格子 中 的 任 一 个 格子 。4 个 角 的 圆圈 可 被 视 为 珍宝 。 当 机 器 人 到 
达 有 珍宝 的 角落 时 ， 它 就 能 够 得 到 10 的 回报 ， 之 后 珍宝 就 消失 了 。 在 角落 中 没有 珍宝 时 ， 每 一 步 
都 有 p 二 0.2 的 概率 会 出 现 珍 宝 ， 目 珍宝 出 现在 每 个 角落 的 概率 相同 。 机 器 人 知道 自己 的 位 置 ， 也 
知道 珍宝 的 位 置 。 

魔鬼 在 有 又 号 的 格子 里 。 在 每 一 步 ， 每 一 个 魔鬼 各 自 独 立 、 随 机 地 检查 机 器 人 是 否 进入 了 它 的 
格子 。 如 果 在 魔鬼 做 检查 时 ， 发 现 机 器 人 在 它 的 格子 里 ， 则 机 器 人 得 到 一 10 的 回报 ( 即 丢掉 10 
分 )。 在 中 间 的 那个 格子 ， 魔鬼 在 每 一 步 检 查 的 概率 是 p, 二 0.4; 在 另外 4 个 标记 了 叉 号 的 格子 ， 
魔鬼 在 每 一 步 检查 的 概率 为 如 一 0. 2。 

假设 机 器 人 进入 一 个 状态 后 立即 得 到 回报 : 也 就 是 说 ， 如 果 机 器 人 进入 一 个 有 魔鬼 的 状态 ， 它 
就 在 进入 时 得 到 ( 负 ) 回 报 ; 如 果 机 器 人 进入 了 有 珍宝 的 状态 ， 它 就 在 进入 该 状态 时 得 到 回报 ， 即 使 
珍宝 于 同一 时 刻 在 该 位 置 出 现 也 是 如 此 。 

机 器 人 有 8 个 动作 ， 对 应 于 8 个 相 邻 的 格子 。 沿 斜 线 的 动作 是 有 噪声 的 动作 : 以 ps 二 0.6 的 概 
率 走向 选 定 的 方向 ， 以 相等 的 概率 走向 与 选 定 方向 相近 的 4 个 格子 。 竖 直方 向 和 水 平方 向 的 动作 也 
是 有 噪声 的 动作 : 以 ps = 0. 8 的 概率 走向 选 定 的 方向 ， 以 相等 的 概率 走向 相 邻 的 斜 线 方向 的 格子 。 
举例 来 说 ， 向 左上 方向 和 向 上 方向 的 动作 的 实际 执行 结果 如 下 所 示 : 





9. 10 
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如 果 是 一 个 擅 向 墙 的 动作 ， 则 机 器 人 得 到 一 2 的 回报 ( 即 丢掉 2 分 ) 且 不 发 生 实际 的 移动 。 

折扣 率 为 ps =0.9. 

(a) 该 问题 中 一 共有 多 少 个 状态 ? (或 有 和 多少 个 状态 可 以 被 排除 ?) 它 们 都 代表 什么 ? 

(b) 最 优 策略 是 什么 ? 

Co) 假设 游戏 设计 者 希望 设计 不 同 的 游戏 实例 ， 使 得 游戏 者 觉得 该 游戏 不 存在 一 个 明显 的 最 优生 
路 。 给 参数 p 至 ps 三 种 不 同 的 赋值 ， 并 计算 出 不 同 的 最 优 策略 。 如 果 不 存在 那么 多 不 同 的 最 
优 策略 ， 则 有 有 几 个 就 列 出 几 个 ， 并 解释 为 什么 没有 那么 多 不 同 的 最 优 策略 。 

考虑 一 个 与 前 一 个 问题 类 似 的 、 有 5X5 网 格 的 游戏 。Agent 可 以 出 现在 25 个 格子 中 的 任意 一 个 ， 

且 在 4 个 角落 中 只 有 一 个 有 珍宝 ， 或 者 都 没有 珍宝 。 

在 这 个 游戏 中 ,“ 向 上 ”的 动作 有 一 定 的 动态 性 ， 如 下 图 所 示 : 





也 就 是 说 ，Agent 以 0. 8 的 概率 向 上 走 ， 分 别 以 0, 1 的 概率 向 左上 或 右上 方向 走 。 

如 果 没 有 珍宝 存在 ， 则 珍宝 以 0.2 的 概率 出 现 。 当 珍宝 出 现时 ， 它 会 以 相同 的 概率 出 现在 四 
个 角落 之 一 。 之 后 珍宝 一 直 存 在 于 其 出 现 的 位 置 ， 直 到 Agent 移动 到 那个 位 置 为 止 。 此 时 ，Agent 
立即 得 到 十 10 的 回报 ， 且 珍宝 在 下 一 个 状态 转移 时 消失 。Agent 和 珍宝 同时 移动 ， 从 而 使 得 Agent 
到 达 一 个 位 置 且 珍 宝 也 在 该 位 置 出 现时 ，Agent 能 够 得 到 回报 。 

假设 我 们 正在 执行 异步 值 选 代 过 程 ， 且 每 个 状态 的 值 如 下 面 网 格 所 示 。 格 子 中 的 数字 表示 相 
应 状态 的 值 ， 空 格子 表示 值 为 0。 我 们 不 去 考虑 这 些 值 是 如 何 设 定 的 。 





左边 网 格 给 出 了 没有 珍宝 的 情况 下 状态 的 值 ， 右 边 的 网 格 给 出 了 右上 角 有 珍宝 的 情况 下 状态 

的 值 。 在 另外 三 个 角落 也 有 针对 珍宝 的 状态 ， 不 过 你 可 以 假设 这 些 状态 的 当前 值 为 0 
考虑 下 一 步 的 异步 值 迭 代 。 对 于 状态 si3a( 图 中 标记 * 的 格子 ) 和 动作 as (向 上 )， 下 一 步 选 代 中 

QLsis ,az] 的 值 是 多 少 ? 请 给 出 你 的 计算 过 程 ， 但 不 必 做 算术 运算 (也 就 是 给 出 计算 的 表达 式 就 行 

T). HMR RAK PHAN X. 

在 一 个 决策 网 络 中 ， 假 设 其 中 有 多 个 效用 节点 ， 在 这 些 节点 必须 把 值 加 起 来 。 这 就 要 求 我 们 设计 

一 个 一 般 的 求 和 效用 函数 。 如 何 修改 图 9-11 所 示 的 用 于 决策 网 络 的 VE 算法 以 包含 这 些 效用 ? 

如 何 修改 图 9-11 所 示 的 用 于 决策 网 络 的 变量 消除 算法 以 处 理 有 折扣 的 加 和 回报 ?也 就 是 说 ， 有 多 

个 效用 (回报 ) 节 点 需要 求 和 并 设置 一 些 折 扣 。 假 设 被 消除 的 变量 是 在 最 新 的 步骤 上 被 消除 的 。 

这 是 例 6-8 的 后 续 练 习 。 

(a) 当 观 察 到 报警 时 ， 需 要 作出 是 否 关闭 反 应 堆 的 决策 。 关 闭 反 应 扒 的 代价 是 c (与 反应 扒 核 心 是 
否 过 热 无 关 )， 而 在 反应 堆 核 心 过 热 时 不 关闭 反应 堆 会 导致 付出 c 的 代价 一 一 该 代价 比 c, 高 
很 多 。 为 原始 系统 ( 即 只 有 一 个 传感器 的 系统 ) 的 此 决策 问题 画 出 决策 网 络 。 对 于 必须 定义 的 
新 表格 (在 定义 新 表格 时 ， 表 格 中 合适 的 地 方 应 该 使 用 c, 和 <c.)， 请 给 出 具体 的 表格 。 你 可 以 
假设 效用 是 代价 的 负 值 。 

Cb) 对 于 前 面 的 决策 网 络 ， 确 定 在 发 出 警报 时 ， 关 闭 反应 堆 和 不 关闭 反应 堆 的 期 望 效用 。 对 于 每 
一 个 要 消除 的 变量 ， 给 出 哪个 变量 被 消除 了 、 是 如 何 消除 的 (通过 加 和 还 是 通过 最 大 化 )、 去 
掉 了 哪些 因子 、 生 成 了 哪些 因子 及 该 因子 影响 哪些 变量 。 不 必 给 出 具体 的 表格 。 
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9.14 现实 生活 中 ,在 我 们 不 知道 能 否 参加 或 者 不 确定 是 否 愿意 参加 的 情况 下 是 否 接受 一 个 邀请 是 我 们 
必须 做 的 一 个 决策 。 下 图 表示 了 这 个 问题 的 一 个 决策 网 络 ; 





假设 所 有 的 决策 和 随机 变量 都 是 布尔 值 ( 即 值 域 是 {true，faise})。 你 可 以 接受 邀请 ,但 当 到 

了 赴 会 时 间 ， 你 仍然 需要 决定 是 否 能 赴 会 。 你 可 能 在 接受 汶 请 后 和 决定 赴 会 前 生病 了 。 即 使 你 决 

定 赴 会 ， 如 果 你 没有 接受 邀请 则 你 也 无 法 赴 会 。 如 果 你 生病 了 , 那么 你 就 有 一 个 很 好 的 理由 不 去 

赴 会 。 你 的 效用 取决 于 你 是 否 接受 了 邀请 ， 你 是 否 有 一 个 好 的 理由 ， 及 你 是 否 真 的 赴 会 了 。 

(a) 给 出 一 个 表示 了 可 能 的 效用 函数 的 表格。 假设 唯一 的 最 好 的 结果 是 你 接受 邀请 、 你 没有 一 个 
很 好 的 理由 有 旦 你 确实 赴 会 了 ， 唯 一 的 最 坏 的 结果 是 你 接受 了 道 请 、 你 没有 一 个 很 好 的 理由 且 
你 并 没有 实际 赴 会 。 给 出 其 他 的 合理 的 效用 值 。 

(b) 假设 在 接受 邀请 之 前 ， 你 需要 观察 自己 是 否 会 生病 。 请 注意 ， 这 个 变量 与 你 在 接受 邀请 后 生 
病 不 同 。 将 这 个 情况 加 人 人 网络 中 。 你 不 能 改变 效用 函数 ， 不 过 新 的 观察 必须 有 一 个 大 于 零 的 
信息 值 。 得 到 的 网 络 必 须 是 决策 网 络 求解 算法 可 以 处 理 的 。 

(c) 假设 在 你 决定 是 否 接受 原始 邀请 之 后 、 实 际 赴 会 之 前 ， 你 可 以 考查 是 否 有 一 个 更 好 的 邀请 
(一 个 与 原始 邀请 冲突 的 邀请 ， 因 此 你 无 法 两 个 都 赴 会 ) 。 假 设 你 更 愿意 接受 更 好 的 邀请 ， 
而 不 是 先前 的 邀请 。( 此 时 的 决策 困难 是 接受 第 一 个 邀请 ， 还 是 等 待 下 去 直到 得 到 更 好 的 六 
请 一 一 你 可 能 等 不 到 这 样 的 邀请 。) 不 幸 的 是 ， 有 另 一 个 邀请 不 能 成 为 一 个 好 的 理由 。 在 上 
面 的 网 络 中 ， 增 加 一 个 "更 好 的 邀请 ?节点 及 相关 的 边 以 处 理 这 个 情况 。( 不 必 包 含 问 题 (b) 
中 的 节点 和 边 。) 

(d) 在 问题 (c) 中 ， 如 果 在 “更 好 的 邀请 ”和 “接受 邀请 ”之 间 有 一 条 边 ， 请 解释 为 什么 有 (也 就 是 说 ， 
环境 中 的 哪 种 情况 使 加 入 这 条 边 成 为 合理 的 ?7)}。 如 果 没 有 这 条 边 ， 那 么 这 条 边 应 该 连 到 哪里 ， 

[419] 同样 能 处 理 上 述 情景 ? 请 解释 此 时 使 得 该 改变 合理 的 具体 环境 。 

(e) 如果 在 “更 好 的 邀请 "和 "接受 邀请 ?之 间 没 有 边 ( 不 管 你 是 否 画 了 一 个 边 )、 那 么 环境 中 的 什么 

因素 必 为 真 才能 使 缺失 这 条 边 成 为 合理 的 ? 
9.15 考虑 下 面 的 决策 网 络 : 


E GD 一 > 人 > 


G3 


(a) 初始 的 因子 有 哪些 ? 〈 不 必 列 出 对 应 的 表格 ， 只 需要 指明 它们 依赖 于 哪些 变量 。) 

(b) 对 于 一 个 合法 的 消除 排序 ， 请 说 明 在 优化 决策 函数 和 计算 期 望 值 的 过 程 中 生成 了 哪些 因子 。 
在 每 一 步 ， 请 解释 消除 了 哪个 变量 、 该 变量 是 加 和 了 还 是 最 大 化 了 、 哪 些 因子 组 合 在 了 一 起 、 
又 生成 了 哪些 因子 (指出 它们 依赖 的 变量 ， 不 必 给 出 取 值 表格 ) 。 

(c) 如 果 在 决策 D 中 信息 A 的 值 为 0， 那么 最 优 策 略 是 什么 样 的 ?〈 请 给 出 任 一 个 最 优 策略 的 最 具 
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体 的 描述 .) 
9. 16 ”异步 值 迁 代 和 标准 的 值 迭 代 的 最 大 不 同 是 什么 ? 为 什么 异步 值 选 代 常 常 比 标准 的 值 迁 代 工作 得 好 ? 
9. 17 考虑 一 个 网 格 情景 ， 其 中 “向 上 ?的 动作 有 如 下 的 动态 性 : 





进入 状态 su 的 回报 是 十 10， 进入 状态 ss 的 回报 是 一 5。 其 他 状态 的 回报 是 0。 


折扣 率 为 0.9。 
BERTHIER HERRA. 存储 了 QLS，4]j， 且 对 这 些 状 态 有 如 下 的 值 : 
Vis) =5 Vísa) = 7 V(su) =— 3 


Visi) =2 Visig) =4 Vi sy.) =—6 420 
在 下 一 步 异 步 值 迭代 中 ， 假 设 我 们 选择 了 状态 ss 并 采取 向 上 的 动作 。 那 么 Cs. up HEM 2 
值 是 多 少 ? 请 给 出 算式 ， 不 要 计算 或 者 简化 它 。 422 


423 
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试想 一 下 有 一 个 代表 你 个 人 从 事 电子 商务 的 个 性 化 软件 Agent。 假 设 此 Agent 的 任务 
是 随时 间 跟 踪 各 在 线 场 所 可 销售 的 货物 ， 并 代表 你 购买 其 中 一 些 有 吸引 力 价格 的 货物 。 为 
了 获得 成 功 ， 你 的 Agent 需要 庶 入 你 对 产品 的 偏好 、 你 的 预算 和 你 的 关于 工作 环境 的 一 般 
知识 。 此 外 ， 这 个 Agent 需 许 入 你 的 关于 将 要 进行 交互 的 其 他 类 似 Agent 的 知识 (例如 ， 
可 能 构成 竞争 拍卖 的 Agent， 或 者 代表 商店 业主 的 Agent) 一 一 包括 他 们 自己 的 偏好 和 知 
识 。 这 些 Agent 的 集合 构成 了 一 个 多 Agent AK. 
一 一 Yoav Shoham 和 Kevin Leyton-Brown[ 2008, # xvii 页 | 


当 存在 拥有 自己 价值 观 并 且 同 样 推理 做 什么 的 其 他 Agent it, Agent 怎样 做 呢 ? 一 个 
智能 Agent 不 应 该 忽略 其 他 的 Agent， 或 者 把 它们 当做 环境 中 的 噪声 。 我 们 考虑 的 问题 
是 ， 给 定 一 种 详细 描述 该 领域 如 何 运作 的 机 制 来 确定 Agent 应 该 做 什么 ， 并 且 设计 一 种 拥 
有 有 用 属性 的 机 制 。 


10.1 多 Agent 框架 


在 这 一 章 中 ,我 们 考虑 有 多 个 Agent 的 情况 ， 其 中 
。 Agent 可 以 自主 行动 ， 每 一 个 Agent 都 有 自己 的 关于 该 领域 和 其 他 Agent 的 信息 ; 
。 结果 取决 于 所 有 Agent 的 动作 ， 机 制 (mechanism) 指 定 Agent 的 动作 如 何 产生 
结果 ; 
。 每 个 Agent 都 可 以 有 其 基于 结果 的 自己 的 效用 。 
每 个 Agent 基于 自己 的 效用 决定 做 什么 ， 但 它 也 必须 和 其 他 Agent 进行 交互 。 当 
Agent 基 于 自己 的 目标 或 效用 决定 做 什么 时 ， 称 为 “策略 性 (strategically) 行 为 ”。 
有 时 候 我 们 把 自然 (nature) 当做 一 个 Agent。 自 然 被 定义 为 一 个 特殊 的 Agent， 它 没 
有 价值 观 ， 不 采取 策略 性 行为 。 它 只 是 随机 地 动作 。 自 然 也 可 以 看 做 是 所 有 没有 策略 性 行 
为 的 Agent 的 集合 。 关 于 Agent 体系 如 图 1-3 所 示 ， 自 然 和 其 他 Agent 构成 了 Agent 的 环 
境 。 一 个 策略 性 的 Agent 不 能 把 其 他 策略 性 的 Agent 当做 是 自然 的 一 部 分 ， 因 为 它 应 该 推 
理 它 们 的 效用 和 行为 ， 还 因为 其 他 Agent 有 可 能 会 与 其 进行 合作 和 协商 。 
在 多 Agent 系统 研究 中 有 两 个 极端 : 
。 完全 合作 的 (cooperative)， 其 中 的 Agent 共享 相同 的 效用 函数 
。 完全 竞争 的 (competitive) ， 只 有 一 个 输 ， 另 一 个 才 可 能 赢 。 这 些 通常 被 称 为 “ 零 和 
博弈 ”(zero-sum game), ， 即 效用 可 以 以 这 样 的 形式 表达 : 对 于 每 个 结果 ， 这 些 Agent 
的 效用 的 总 和 是 零 。 
大 多 数 交 互 是 在 这 两 个 极端 之 间 ， 这 些 Agent 的 效用 可 能 在 某 些 方面 是 互相 促进 的 ， 
在 某 些 方面 又 是 竞争 的 ， 在 有 些 方面 是 相互 独立 的 。 例 如 ， 两 个 相 邻 店 的 商业 Agent 也 许 
会 共享 拥有 干净 、 吸 引 人 的 街区 的 目标 ;它们 也 会 竞争 客户 ,但 是 它们 又 对 对 方 店 的 细节 
没有 偏好 。 有 时 它们 的 行为 互 不 干扰 ， 有 时 它们 又 相互 干扰 。 如 果 它 们 通过 合作 和 协商 来 
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协调 它们 的 行动 ，Agent 通常 可 以 做 得 更 好 。 

在 Neumann 和 Morgenstern[ 1953] 的 开创 性 工作 后 ， 大 多 开始 使 用 博弈 论 来 研究 多 
Agent 交互 。 使 用 博弈 论 ， 可 以 研究 Agent 之 间 的 很 多 交互 问题 。 即 使 是 相当 小 的 博弈 也 
可 以 展现 很 深刻 的 问题 。 然 而， 博弈 论 的 研究 针对 的 是 一 般 的 多 Agent 交互 ， 而 不 只 是 人 
TA) EAR 

多 Agent 系统 在 人 工 智 能 中 是 普遍 存在 的 。 从 室内 游戏 ， 比 如 跳棋 、 国 际 象棋、 五 子 
槛 、 围 棋 ， 到 机 器 人 足球 ， 到 交互 式 计 算 机 游戏 ， 再 到 复杂 经 济 系统 中 的 Agent, mE 
论 是 人 工 智能 不 可 或 缺 的 。 博 弈 是 人 工 知 能 最 早 的 应 用 之 一 。 最 早 的 强化 学 习 系 统 之 一 是 
Samuel[1959] 的 跳棋 游戏 ， 其 中 第 一 个 可 操作 的 跳棋 程序 可 以 追溯 到 1952 年 。1997 Æ, 
深蓝 已 经 大 张 旗 鼓 地 击败 了 国际 象棋 世界 冠军 。 计 算 机 在 跳棋 和 五 子 棋 上 也 获得 了 成 功 ， 
但 是 它 在 围棋 上 就 没 那 么 成 功 了 ， 因 为 过 大 的 搜索 空间 和 人 缺少 优秀 的 可 行 的 启发 式 算法 。 
这 些 博 弈 虽然 大 ， 但 概念 上 是 简单 的 ， 因 为 Agent 可 以 观察 到 该 领域 的 所 有 状态 (它们 是 
完全 可 观察 ) 。 而 在 大 多 数 现实 世界 的 交互 中 ， 领 域 的 状态 是 不 可 观察 的 。 

现在 人 们 对 部 分 可 观察 的 博弈 更 有 兴趣 ， 比 如 扑克 ， 它 的 环境 是 可 以 预测 的 (即使 是 随 
机 的 ); 还 有 机 器 人 足球 ， 它 的 环境 不 好 预测 。 但 是 所 有 这 些 博 弈 比 人 们 在 日 常生 活 中 表现 
出 的 多 Agent 交互 要 简单 得 多 ， 更 别 说 缺乏 明确 规则 且 效 用 包罗 万 象 的 实物 交易 市 场 了 。 


10.2 博弈 的 表示 


为 了 实现 多 Agent 交互 的 推理 ， 我 们 需要 给 出 Agent 可 能 行为 及 相应 回报 的 表示 。 在 
经 济 学 和 人 工 智能 中 已 经 提出 了 博弈 和 多 Agent 交互 的 很 多 表示 方案 。 在 人 工 智 能 中 ， 这 
些 表 示 方 案 通常 会 尝试 表示 博弈 中 可 抽出 用 来 计算 收益 的 某 些 方面 。 

我 们 提出 三 种 表示 形式 ， 其 中 两 种 是 来 自 经 济 学 中 的 经 典 表示 形式 。 第 一 种 抽象 出 
Agent 的 所 有 策略 结构 。 第 二 种 模型 化 博弈 的 顺序 结构 ， 它 是 棋盘 博弈 表示 的 工作 基础 。 
第 三 种 表示 方案 摆脱 了 基于 状态 的 表示 而 使 用 基于 特征 的 表示 。 


10.2.1 博 奔 的 标准 形式 


博弈 最 基本 的 表示 形式 是 博弈 的 策略 形式 (strategic form of a game) 或 标准 形式 的 博 
Æ (normalform game) 。 博 弈 的 策略 形式 由 以 下 组 成 : 
。 Agent 的 一 个 有 限 集 合 I, 为 整数 集 ,， I={1, e, n} 
。 每 个 Agent iE I 的 动作 集合 A。 给 定 每 个 Agent i€ I HA, 的 赋值 称 为 一 个 动作 
组 合 (action profile) 。 一 个 动作 组 合 可 以 看 成 是 一 个 元 组 4aa，…，ans， 它 表示 
Agent i 实施 动作 ai。 
。 ui 为 给 定 一 个 动作 组 合 时 ， 每 个 Agent iE 工 的 效用 函数 ， 表 示 对 于 一 个 给 定 动作 
组 合 的 Agent i 返回 期 望 效用 。 
所 有 Agent( 一 个 动作 组 合 ) 的 共同 作用 产生 出 一 个 结果 。 每 个 Agent 在 每 个 结果 上 都 
有 一 个 效用 。Agent 的 效用 是 指 Agent 所 感 兴趣 的 一 切 ， 包 括 公 平和 社会 福 社 。 因 此 ， 我 
们 假设 每 个 Agent 试图 使 自己 的 效用 最 大 化 ， 而 不 关心 其 他 Agent 的 效用 。 
【 例 10-1) 石头 剪子 布 是 一 种 常见 的 儿童 游戏 ， 甚 至 还 有 一 个 石头 剪子 布 的 世界 冠 
军 。 假设 有 两 个 Agent( 玩 家 )，Alice 和 Bob。 每 个 Agent 有 三 个 动作 ， 所 以 


Anice = Ans = {rock » paper ,scissors}. 
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对 Alice 和 Bob 每 个 动作 组 合 ，Alice 会 有 一 个 效用 ，Bob 也 会 有 一 个 效用 。 通 常 我 们 
用 图 10-1 所 示 的 表 来 表示 ， 这 就 是 所 谓 的 收益 矩阵 (payoff matrix), Alice 选择 行 ，Bob 
选择 列 。 这 给 出 了 一 个 数字 对 : 第 一 个 数字 是 行 上 的 玩家 (Alice) 的 收益 ， 第 二 个 是 列 上 的 
玩家 (Bob) 的 收益 。 需 要 注意 的 是 ， 它 们 中 的 每 个 玩家 的 效用 取决 于 双方 玩家 的 动作 。 动 
作 组 合 的 一 个 例子 是 (scissorsakee rocke), BI Alice 选择 出 剪子 ，Bob 选择 出 石头 。 在 这 
个 动作 组 合 中 ，Alice 得 到 的 效用 为 一 1，Bob 得 到 的 效用 为 1。 这 是 个 零 和 博弈 ， 因 为 只 
有 一 方 输 了 另 一 方才 能 赢 。 


Alice 





图 10-1 石头 剪子 布 游戏 的 策略 形式 < 


博弈 的 这 个 表示 形式 有 很 大 的 局 限 性 ， 因 为 它 只 基于 每 个 Agent 的 单一 动作 给 出 了 一 
次 性 收益 ， 这 些 动 作 同 时 被 每 一 个 Agent 所 选择 。 然 而 ， 动 作 定义 的 解释 却 很 宽泛 。 

通常 情况 下 ,“ 动 作 ? 不 只 是 一 个 简单 的 选择 ， 而 是 一 种 策略 : 在 各 种 突 发 情况 下 ，Agent 
将 要 做 什么 的 一 种 规范 。 从 本 质 上 讲 ， 其 标准 形式 是 给 定 Agent 可 能 策略 的 效用 的 规范 。 
这 就 是 它 被 称 为 博弈 的 策略 形式 的 原因 。 

在 一 般 情 况 下 ,“ 动 作 ? 在 标准 形式 博弈 中 的 定义 是 Agent 的 控制 器 。 因 此 ， 每 个 Agent 
选择 一 个 控制 器 ， 在 环境 中 运行 的 每 个 Agent 控制 器 产生 预期 的 结果 就 是 效用 。 虽 然后 面 
的 例子 中 是 简单 的 动作 ， 但 是 一 般 情 况 下 每 个 Agent 可 能 采取 的 动作 (可 能 的 控制 器 ) 的 数 
量 是 巨大 的 。 


10.2.2 ”博弈 的 扩展 形式 


鉴于 博弈 的 标准 形式 把 控制 器 表示 为 单个 单位 ， 那 么 在 时 间 上 展开 博弈 的 规范 更 自 
然 。 博 弈 的 扩展 形式 是 单个 Agent 决策 树 的 扩展 。 我 们 首先 给 出 一 个 定义 ， 假 定 这 个 博弈 
是 完全 可 观察 的 ( 称 为 博弈 论 中 的 完全 信息 ) 。 

完全 信息 博弈 的 扩展 形式 (extensive form) 或 博弈 树 (game tree) 是 一 个 有 限 树 ， 其 中 
树 中 的 节点 是 状态 ， 弧 对 应 的 是 Agent 的 动作 。 实 际 上 : 

。 每 个 内 部 节点 被 标记 为 Agent( 或 者 nature), Agent 用 来 控制 节点 。 

。 从 标记 为 Agent i 的 节点 出 来 的 每 个 弧 对 应 的 是 Agent i 的 行为 。 

。 每 个 标记 为 nature 的 内 部 节点 都 有 关于 它 的 子 节点 的 概率 分 布 。 

。 叶子 节点 表示 最 后 结果 并 用 Agent 的 效用 来 标记 。 

一 个 博弈 的 扩展 形式 指定 了 一 个 特定 的 博弈 展开 。 每 个 到 时 子 节点 的 路 径 称 为 一 次 运行 
(run) ， 指 定 了 通过 依赖 于 Agent 或 nature 的 选择 使 博弈 能 够 进行 下 去 的 一 条 特定 路 径 。 

Agent i 的 一 个 纯 策 略 是 一 个 从 被 Agent i 控制 的 节点 到 动作 的 函数 。 也 就 是 说 ， 一 个 
纯 策 略为 每 个 Agent i 控制 的 节点 选择 子 节 点 。 一 个 策略 组 合 (strategy profile) 包 含 了 每 
个 Agent 的 策略 。 

【 例 10-2〗 试想 一 个 共享 的 博弈 ， 有 两 个 Agent， 分 别 为 Andy 和 Barb， 并 且 有 两 个 
相同 的 东西 要 分 给 他 俩 。Andy 首先 选择 如 何 分 配 它们 : Andy 都 保留 ， 或 者 选择 分 享 使 每 
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人 均 得 到 一 个 ， 或 者 都 给 Barb。 然 后 Barb 可 以 拒绝 这 次 分 配 从 而 他 们 两 个 什么 也 得 不 到 ， 
或 者 他 接受 分 配 从 而 他 们 两 个 都 得 到 了 相应 数量 。 Andy 
图 10-2 中 表示 出 了 共享 博弈 的 扩展 形式 。 
Andy 有 3 个 策略 。Barb 有 8 个 纯 策略 ， 每 个 策 
略 是 它 所 控制 节点 的 分 配 的 组 合 。 结 果 共 有 24 个 
策略 组 合 。 < 
给 定 一 个 策略 组 合 ， 每 个 节点 对 每 个 Agent 
都 有 一 个 效用 。 一 个 节点 上 的 Agent 的 效用 从 下 
往 上 递归 定义 : 
。 叶子 节点 上 每 个 Agent 的 效用 给 定 为 叶子 AE SERERE EA 
节点 的 一 部 分 。 
。 被 Agent i 控制 的 某 个 节点 上 Agent j 的 效用 是 由 Agent i 的 策略 所 选择 的 子 节点 
上 的 Agent 7 的 效用 。 
。 被 nature 控制 的 节点 上 的 Agent i 的 效用 是 其 子 节点 上 的 Agent i 效用 的 期 望 值 。 
也 就 是 说 , ui(n) = >,P(Co)uw(c) ， 其 中 的 求 和 包括 节点 n 上 所 有 的 子 节点 c， 


P(c) 是 nature 选择 子 节点 c 的 概率 。 427 

LB 10-3) 在 共享 博弈 中 ， 假 设 我 们 有 以 下 策略 组 合 : Andy 选择 keep, H. Barb 对 她 
会 选择 的 每 个 节点 选择 no0，yes，yes。 根 据 这 个 策略 组 合 ， 在 最 左 内 部 节点 上 Andy 的 效 
用 是 0， 在 中 间 内 部 节点 上 Andy 的 效用 是 1， 在 最 右 内 部 节点 上 Andy 的 效用 是 0。 在 根 
节点 上 Andy 的 效用 是 0。 

前 面 定义 的 博弈 的 扩展 形式 假定 Agent 可 以 观察 到 世界 状态 (也 就 是 说 ， 它 们 知道 每 
一 步 是 什么 节点 ) 。 这 意味 着 ， 博 弈 的 状态 必须 是 充分 可 观察 的 。 在 一 个 部 分 可 观察 博弈 
或 者 一 个 不 完全 信息 博弈 中 ，Agent 并 不 一 定 知 道 博弈 的 状态 。 为 了 建 模 这 些 博 弈 的 扩展 
形式 ， 我们 介绍 下 信息 集 的 概念 。 一 个 信息 集 (information set) 是 一 个 节点 集合 ， 它 们 都 
被 同一 个 Agent 控制 并 且 拥 有 同一 个 可 用 的 动作 集合 。 这 意味 着 Agent 无 法 区 分 信息 集中 
的 元 素 。Agent 只 知道 这 个 博弈 的 状态 是 在 信息 集中 的 某 个 节点 上 ， 但 不 知道 具体 在 哪个 
节点 上 。 在 一 个 策略 中 ，Agent 为 每 个 信息 集 
选择 一 个 动作 ; 在 信息 集中 的 每 个 节点 上 进行 
同样 的 行为 。 因 此 ， 在 扩展 形式 中 ， 一 个 策略 
指定 了 从 信息 集 到 动作 的 一 个 函数 。 

【 例 10-4) 图 10-3 给 出 了 例 10-1 的 石头 
剪子 布 游戏 的 扩展 形式 。 信 息 集 的 元 素 在 一 个 
圆 角 矩形 中 。Bob 必须 为 信息 集中 的 每 个 节点 00 -Lo 1-1 000 T Pe 1 0.0 
选择 相同 的 动作 。 < 图 10-3 “石头 剪刀 布 ?博弈 的 扩展 形式 


10.2.3 多 Agent 决策 网 络 


博弈 的 扩展 形式 可 以 看 做 博弈 的 基于 状态 的 表示 形式 。 正 如 我 们 在 前 面 已 经 看 到 的 ， 
在 特性 方面 来 描述 状态 往往 更 简洁 。 多 Agent 决策 网 络 (multiagent decision network) 是 多 
Agent 决策 问题 的 一 个 因素 表示 形式 。 除 了 每 个 决策 点 被 标记 为 Agent， 其 为 节点 选择 一 
个 值 ， 这 类 似 于 决策 网 络 。 每 个 Agent 有 一 个 效用 节点 ， 它 指定 了 这 个 Agent 的 效用 。 当 





2,0 0,0 1,1 0,0 0,2 0,0 
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Agent 必须 采取 行动 时 ， 决 策 节点 的 父 节点 指定 该 Agent 可 用 的 信息 。 

KB 10-5] 图 10-4 给 出 了 一 个 消防 部 门 的 多 Agent 决策 网 络 的 例子 。 在 此 方案 中 ， 
有 两 个 Agent，Agent 1 和 Agent 2。 每 个 都 拥有 辨别 是 否 发 生火 灾 的 噪声 传感器 。 然 而 ， 
如 果 它 们 都 呼叫 ， 它 们 的 呼叫 可 能 会 互相 干扰 导致 每 个 呼叫 都 不 管用 。Agent 1 可 以 选择 
决策 变量 Calll 的 值 ， 并 且 只 能 观察 到 变量 Alarm] 的 值 。Agent 2 可 以 选择 决策 变量 
Call2 的 值 ， 并 且 只 能 观察 到 变量 Alarm? 的 值 。 该 呼叫 是 否 工作 取决 于 Calll 和 Call2 的 
值 ， 而 消防 部 门 是 否 到 来 取决 于 呼叫 是 否 工 作 。Agent 1 的 效用 取决 于 三 个 方面 : 是 否 有 
火灾 、 消 防 部 门 是 否 到 来 和 它们 是 否 呼 叫 一 一 Agent 2 也 是 如 此 。 





图 10-4 火灾 事例 的 多 Agent 决策 网 络 < 


一 个 多 Agent 决策 网 络 能 被 转换 成 一 个 标准 形式 的 博弈 ， 然 而 ， 策 略 的 数量 可 能 是 巨 
大 的 。 如 果 一 个 决策 变量 有 d 个 状态 , 个 二 进 制 的 父 节点 ， 那 么 父 节点 有 2" 个 分 配 值 ， 


有 性 个 策略 。 这 仅仅 是 一 个 单一 决策 节点 ， 更 多 复杂 网 络 在 转换 为 标准 形式 时 会 更 加 庞 
大 。 因 此 ， 我 们 提出 的 与 策略 数量 成 指数 关系 的 算法 不 可 能 对 任意 情况 可 行 ， 只 适用 于 最 
小 的 多 Agent 决策 网 络 。 

还 有 利用 其 他 结构 来 表示 多 Agent 系统 的 形式 。 例 如 ， 一 个 Agent 的 效用 也 许 会 取决 
于 采取 某 种 动作 的 Agent 的 数量 ， 而 不 是 取决 于 它们 自身 。 一 个 Agent 的 效用 也 许 会 依赖 
于 一 小 部 分 Agent 的 行为 ， 而 非 所 有 其 他 Agent 的 行为 。 一 个 Agent 的 效用 也 许 仅 仅 取 
决 于 临近 位 置 Agent 做 什么 ， 而 不 是 这 些 Agent 的 本 体 或 者 其 他 Agent 做 什么 。 


10.3 完全 信息 的 计算 策略 


多 Agent 的 完全 可 观察 性 相当 于 拥有 完全 信息 (perfect information) 。 在 完全 信息 博 
JE, Agent 按 顺 序 行动 ， 当 一 个 Agent 要 行动 时 ， 它 会 在 决定 做 什么 之 前 观察 这 个 世界 
的 状态 。 每 个 Agent 均 以 使 自己 的 效用 最 大 化 为 目的 采取 行动 。 

完全 信息 博弈 可 以 扩展 形式 的 博弈 来 表示 ， 其 中 信息 集 只 包含 一 个 节点 。 它 们 也 可 以 
表 采 用 一 个 多 Agent 决策 网 络 表示 ， 其 中 决策 节点 是 完全 排序 的 ， 且 对 每 个 决策 节点 ， 其 
父 节 点 包含 前 继 决 策 节点 和 它们 所 有 的 父 节点 ( 即 它们 是 没有 遗忘 的 决策 网 络 )。 

完全 信息 博弈 也 可 以 用 类 似 完 全 可 观察 的 单一 Agent 系统 的 方法 来 解决 。 我 们 可 以 用 
向 后 的 动态 规划 或 者 向 前 的 搜索 来 解决 。 与 单一 Agent 的 情况 不 同 的 是 ， 多 Agent 算法 为 
每 个 Agent 每 次 的 移动 保留 一 个 效用 ， 它 选择 一 个 动作 使 Agent 移动 效用 最 大 化 。 动 态 规 
划 的 变 体 称 为 逆向 归纳 法 (backward induction) 一 一 本 质 上 遵循 着 Agent 节点 的 效用 
定义 ,但 是 在 每 个 节点 上 ， 控 制 节点 的 Agent 要 选择 使 得 它 的 效用 最 大 化 的 动 帮 。 
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CO) 10-6] 考虑 图 10-2 的 共享 博弈 。 对 每 个 标记 为 Barb 的 节点 ， 她 要 选择 使 她 效用 
最 大 化 的 值 。 因 此 ， 她 会 为 她 所 控制 的 右面 两 个 节点 选择 “yes”， 要 么 她 就 将 要 选择 她 控 
制 的 最 左面 的 节点 了 。 假 设 她 对 这 个 节点 选择 “no”， 那 么 Andy 就 要 选择 下 列 行为 中 的 一 
个 : keep 对 他 的 效用 是 0，share 的 效用 是 1, give 的 效用 是 0， 所 以 他 选择 共享 。 所 

”在 两 个 Agent 的 竞争 环境 中 ,一 个 Agent 有 正 的 收益 ， 另 一 个 Agent 则 为 负 的 收益 ， 

这 是 一 个 2-Agent 的 零 和 博弈 。 这 种 博弈 的 特征 可 以 用 一 个 数字 来 表述 ， 一 个 Agent 试图 
使 该 值 最 大 化 ， 而 另 一 个 Agent 试图 使 其 最 小 化 。 对 于 一 个 2-Agent 零 和 博弈 ， 该 单一 值 
会 引出 一 个 极 大 极 小 (minimax) 策 略 。 如 果 是 被 试图 最 大 化 的 Agent 控制 的 节点 ， 那么 每 
个 节点 是 一 个 MAX 节点 ; 或 者 如 果 是 被 试图 最 小 化 的 Agent 控制 的 节点 ， 那 么 每 个 节点 
是 一 个 MIN 节点 。 i 

逆向 归纳 法 可 用 来 找到 最 佳 的 极 大 极 小 策略 。 从 下 往 上 上， 逆向 归纳 法 在 MAX 节点 最 
大 化 ,在 MIN 节点 最 小 化 。 然 而 ， 逆 向 归纳 法 需要 对 整个 博弈 树 进 行 遍 历 。 通 过 剪 枝 掉 
不 可 能 成 为 最 优 方 案 的 那 部 分 搜索 树 来 实现 。 

【 例 10-7] 考虑 图 10-5 中 的 博弈 树 搜 索 。 在 该 图 中 ， 方 形 MAX 节点 由 最 大 化 Agent 
控制 ， 圆 形 MIN 节点 由 最 小 化 Agent 控制 。 





图 10-5 . 零 和 博弈 树 的 节点 前 枝 


假设 给 定 博弈 的 定义 的 情况 下 ， 叶 子 节点 的 值 可 以 给 定 或 者 可 以 计算 出 来 。 正 如 图 中 
所 示 ， 底 部 的 数字 显示 了 部 分 值 ， 其 他 值 忽略 。 假 设 我 们 对 这 个 树 进 行 从 左 开始 深度 优先 
遍历 。 节 点 的 值 是 7， 因 为 它 是 7 和 9 中 的 最 小 值 。 仅 仅 通过 考虑 i 的 最 左 子 节点 ,其 
值 是 6， 我 们 知道 i 的 值 是 小 于 或 等 于 6 的 。 因 此 ， 在 节点 4， 最 大 化 Agent 将 向 左 走 。 
我 们 没有 必要 评估 i 的 其 他 子 节 点 。 相 似 的 ，j 的 值 是 11， 所 以 。 的 值 至 少 是 11， 在 节点 
b 的 最 小 化 Agent 将 会 选择 向 左 走 。 

i 的 值 小 于 或 等 于 5，m 的 值 小 于 或 等 于 4; 因此 ，f 的 值 小 于 或 等 于 5， 所 以 c 的 值 
将 会 小 于 或 等 于 5。 所 以， 在 节点 a， 最 大 化 Agent 将 会 选择 向 左 走 。 要 注意 的 是 ， 这 种 
说 法 不 取决 于 没有 数字 的 叶子 节点 的 值 ， 它 也 不 取决 于 没有 探讨 的 子 树 的 大 小 。 < 

前 面 的 例子 分 析 了 什么 样 的 节点 可 以 被 剪 枝 。 极 大 极 小 a-B ERER 
算法 ， 它 通过 向 下 传递 参数 a 和 有 的 剪 枝 信息 来 前 枝 。 在 这 个 深度 优先 搜索 中 ， 节 点 有 
“当前 ? 值 ， 这 个 值 由 它 的 子孙 节点 取得 。 当 它 得 到 更 多 有 关 它 其 他 子孙 节点 值 的 信息 时 ， 
这 个 当前 值 可 以 随 之 更 新 。 

参数 a 可 以 用 于 前 枝 MIN 节点 。 最 初 ， 对 于 当前 节点 的 所 有 MAX 祖先 ， 它 是 最 大 
的 当前 值 。 任 何 当 前 值 小 于 等 于 它 的 值 的 MIN 节点 没有 必要 更 进一步 探讨 。 在 前 面 的 
例子 里 ， 采 用 这 个 思路 来 剪 枝 :/、m 和 < 的 其 他 后 代 节 点 。 

与 之 相对 的 是 参数 8， 它 可 以 用 来 剪 枝 MAX 节点 。 
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图 10-6 给 出 了 ep 剪 枝 的 极 大 极 小 算法 。 它 起 初 被 称 为 
MinimazAl pha Beta (R, — 90,92) 


其 中 尺 是 根 节点 。 要 注意 的 是 ， 它 使 用 a 


procedure MininmaxAI phaBeta(N, a, ® 
Inputs 





1: 
2: 
作为 MAX 节点 的 当前 值 ，8 作 为 MIN 节 3, DM: ini a 
4; a, ĝ: X 
点 的 当前 值 . Sd 
【 例 10-8] 考虑 在 图 10-5 中 的 树 6: WAN 
上 运行 MinimaxAlphaBeta, RHE 7: 让 六 是 叶子 节点 then 
了 x ead 8: return N 的 值 
示 递 归 调 用 。 最 初 ， 它 调用 : else if N 是 MAX 节点 then 
MinimazAlphaBeta (a, 一 coyco) : for each N 的 子 节点 C do 
然后 依次 调用 : Set o«max(a, MinimaxAlphaBeta(C, a, B)) 
f if a >f th 
MinimaxAlphaBeta (b, — 22,20) i ihon 
MinimarAlphaBeta(d, — œ ,20) 4 return c 
MinimazAlphaBeta (h, 一 cco) ; Pa ch 二 的 于 节点 io 
3 ea 5 
最 后 一 次 调用 查找 它 的 两 个 子 节点 中 Set B+-min(s, MinimaxAlphaBeta(C, a+ 月 ) 
最 小 的 那个 ， 并 且 返 回 值 7。 接 下 来 程 
序 调 用 2 return a 
MinimazAl pha Beta (i.7,°°) 
然后 得 到 i 的 第 一 个 子 节点 的 值 是 6。 图 10-6 < 前 校 中 的 极 大 极 小 算法 


由 于 a 宇 8， 返 回 值 6。 然 后 a 的 调用 返回 值 7， 并 且 它 调用 

MinimaxAl pha Beta (e, — 2,7) 
节点 e 的 第 一 个 子 节点 返回 值 11， 并 且 由 于 a 之 8， 返 回 值 11。 然 后 5 返回 值 ?， 并 且 a 调用 了 

MinimaxAlphaBeta (c 57 ,°°) 
接着 调用 

MinimazAl phaBeta ( f ,7,°°) . 
最 终 返 回 值 5， 所 以 * 的 调用 返回 值 5， 所 以 最 终 整 个 程序 返回 值 7。 

通过 跟踪 值 ， 最 大 化 Agent 知道 在 a 处 向 左 走 ， 然 后 最 小 化 Agent 在 5 处 将 向 左 走 ， 
等 等 。 < 

该 算法 提供 的 剪 枝 量 取决 于 每 个 节点 的 子 节点 的 排序 。 如 果 一 个 MAX 节点 的 最 高 值 
子 节点 首先 被 选中 ， 并 且 一 个 MIN 节点 的 最 低 值 首先 被 返回 ， 那 它 的 效果 最 好 。 在 真正 
博弈 的 实现 中 ， 很 多 的 努力 都 是 要 保证 这 一 结果 。 

大 多 数 真 实 的 博弈 即使 使 用 ep 剪 枝 也 无 法 进行 极 大 极 小 搜索 。 对 于 这 些 博 弈 ， 通 常 
可 在 任何 节点 停止 ， 而 不 再 是 叶子 节点 。 在 算法 停止 的 节点 上 返回 的 值 即 是 对 这 个 节点 的 
一 个 评估 值 。 用 来 评估 这 个 值 的 函数 叫 评价 函数 (evaluation function) 。 已 有 大 量 寻 找 优秀 
的 评价 函数 的 工作 。 此 类 工作 有 一 点 需要 注意 ， 在 计算 评价 函数 所 需要 的 计算 量 与 在 给 定 
的 时 间 内 可 搜索 的 搜索 空间 的 大 小 上 需 有 一 个 权衡 。 至 于 如 何在 复杂 的 计算 和 巨大 搜索 空 
间 之 间 进 行 权 衡 就 是 个 经 验 问题 了 。 


10.4 部 分 可 观察 的 多 Agent 推理 


部 分 可 观察 性 是 指 一 个 Agent 不 知道 世界 的 完全 状态 或 者 所 有 的 Agent 同时 行动 。 

部 分 可 观察 下 的 多 Agent 的 情况 比 完 全 可 观察 下 的 多 Agent 的 情况 或 部 分 可 观察 下 的 
单一 Agent 的 情况 更 复杂 。 下 面 这 个 简单 的 例子 显示 了 即使 仅 有 两 个 Agent 并 且 每 个 Agent 
只 有 很 少 选择 的 情况 下 也 会 出 现 的 一 些 重要 问题 。 
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【 例 10-9] 考虑 如 图 10-7 所 描述 情况 ,在 足球 比赛 中 罚 点 球 。 如 果 射 门 者 向 他 的 右 
边 跑 并 且 守 门 员 向 他 的 右边 跳 起 ， 进 球 的 概率 是 0.9， 图 中 同样 给 出 了 其 他 的 动作 组 合 。 





图 10-7 点 球 大 战 。 射 门 者 可 选择 向 左 或 者 向 右 射 ， 守 门 员 可 以 选择 向 左 或 者 向 右 扑 


当 射 门 者 希望 进 球 概 率 最 大 而 守门 员 希 望 进 球 概 率 最 小 的 情况 下 ， 射 门 者 应 该 怎么 做 ? 
射门 者 可 能 会 认为 最 好 往 他 的 右边 踢 ， 因 为 往 右 踢 的 那 对 数字 比 往 左 踊 的 那 对 数字 要 大 。 守 
门 员 可 能 会 认为 如 果 射 门 者 往 右 踢 ， 那 他 应 该 往 左 跳 。 然 而 ， 如 果 射 门 者 认为 守门 员 要 想 
左 跳 ， 那 他 应 该 往 左 跑 。 但 是 随后 ， 守 门 员 应 该 往 右 跳 ， 然 后 射门 者 应 该 往 右 踢 。 

每 个 Agent 可 能 会 面 对 推 理 另 一 个 Agent 将 要 做 什么 的 无 限 回归 。 在 它们 推理 的 每 个 
阶段 中 ，Agent 会 反 转 它们 的 决策 。 然 而 ， 人 们 可 以 想象 在 某 一 处 中 断 ， 那 么 该 动作 就 单 
纯 地 是 一 个 任意 深度 的 函数 。 更 糟 的 是 ， 如 果 射 门 者 知道 守门 员 推 理 的 深度 限制 ， 他 就 可 
以 利用 这 个 知识 来 决定 射门 者 要 做 什么 并 且 适 当地 选择 他 的 动作 。 

Agent 的 另 一 个 方法 是 随机 地 选择 动作 。 你 可 以 想象 射门 者 和 守门 员 各 自 偷偷 地 扔 硬 
币 来 决定 做 什么 。 然 后 你 应 该 考虑 硬币 是 否 是 有 偏向 的 。 假 设 射门 者 决定 以 概率 ps 往 他 
WAR BH. 守门员 决定 以 概率 p; 往 他 的 右面 跳 。 那 么 进 球 的 概率 是 

0. 9p:p; +0. 3p,.(1 — pj) +0. 201 — pid p; +0. 601 — ppd C1 — p,) 

10-8 将 进 球 的 概率 表示 为 p 的 函数 。 不 同 的 行 对 应 于 b, 的 不 同 值 。 

当 值 pi 二 0.4 时 有 些 特殊 。 在 这 个 值 
中 ， 进 球 的 概率 是 0.48， 它 独立 于 p, 的 
值 。 也 就 是 说 ， 不 管 守门 员 做 什么 ， 射 门 
者 进 球 的 预期 概率 是 0.48。 如 果 射 门 者 偏 
离 了 加 一 0.4， 他 可 以 做 得 更 好 或 者 更 坏 ， 
但 这 取决 于 守门 员 做 什么 。 

对 于 与 p; 二 0.3 相交 的 所 有 行 ， 广 的 
情况 也 是 类 似 的 。 再 次 ， 当 户 一 0.3 时 ， 进 | EN 
球 的 概率 是 0. 48, Pr 

pi 二 0.4 H p; =0.3 的 策略 是 特殊 的 ， 10-8 ”将 进 球 概率 表示 为 动作 概率 的 函数 
在 这 个 意义 上 ，Agent 通过 单方 面 偏离 这 个 策略 都 不 能 做 得 更 好 。 然 而 ， 这 并 不 意味 着 他 
们 不 能 做 得 更 好 ; 如果 Agent 中 的 一 个 偏离 了 这 种 均衡 ， 另 一 个 Agent 通过 偏离 这 种 均衡 
可 以 做 得 更 好 。 但 是 ， 这 种 均衡 对 于 Agent 是 安全 的 ， 意 义 在 于 即使 另外 一 个 Agent 知道 
一 个 Agent 的 策略 ， 另 外 一 个 Agent 也 不 能 强制 这 个 Agent 得 到 更 坏 的 结果 。 使 用 这 个 
策略 意味 着 一 个 Agent 不 必 担 心 对 另 一 个 Agent 双向 猜测 。 他 将 会 得 到 他 所 能 保证 得 到 的 
最 好 回报 。 < 

现在 让 我 们 扩大 策略 的 定义 使 其 包括 随机 策略 。 

考虑 博弈 的 标准 形式 ， 其 中 每 个 Agent 要 同时 选择 一 个 动作 。 每 个 Agent 在 不 知道 另 
一 个 Agent 选择 的 情况 下 选择 一 个 动作 。 
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一 个 Agent 的 策略 是 该 Agent 动作 的 一 个 概率 分 布 。 如 果 这 个 Agent 行动 非常 确定 ， 其 
中 一 个 概率 是 1， 剩 下 的 是 0， 这 叫做 一 个 纯 策 略 (pure strategy)。 如 果 这 个 Agent 没有 纯 策 
略 ， 其 中 没有 一 个 概率 是 1， 并 且 将 有 一 个 以 上 动作 的 概率 是 非 零 的 ， 这 叫做 随机 策略 
(stochastic strategy) 。 在 一 个 策略 中 非 零 概率 的 动作 集 叫 做 这 个 策略 的 支持 集 (support set) 。 

一 个 策略 组 合 (strategy profile) 是 对 每 个 Agent 的 一 个 策略 分 配 。 如 果 so 是 一 个 策略 

4 o 是 在 o 中 Agent i 的 策略 ，o-; 是 其 他 Agent 的 策略 。 那 么 c 是 ce-;。 如 果 这 个 策 
略 组 合 由 纯 策 略 组 成 ， 它 通常 叫做 一 个 动作 组 合 Cacetionm profile)， 因 为 每 个 Agent 都 有 一 
个 特定 的 动作 。 

一 个 策略 组 合 o 对 每 个 Agent 有 一 个 效用 。utility(o， 门 是 策略 组 合 o 对 Agent i 的 效 
用 。 当 给 定 构成 组 合 的 基本 动作 的 效用 以 及 动作 的 概率 时 ， 通 过 计算 期 望 效 用 可 以 得 出 一 
个 随机 策略 组 合 的 效用 。 

Agent i 对 其 他 Agent 的 策略 o_; 的 一 个 最 好 回应 (best response) 是 对 该 Agent 有 着 最 
大 效用 的 策略 。 也 就 是 说 ，c: 是 o_; 的 最 好 回应 ， 当 对 Agent i 所 有 其 他 的 策略 oz， 有 

utility (oiai) > utility (glo +i) 

对 每 个 Agent i 来 说 ， 如 果 策 略 m 是 c-; 的 最 好 回应 ， 那 么 这 个 策略 组 合 c 就 是 一 个 纳 
什 均衡 (Nash equilibrium) 。 也 就 是 说 ， 一 个 纳什 均衡 就 是 一 个 策略 组 合 ， 任 何 Agent Ñ 
过 单方 面 偏离 这 个 组 合 不 可 能 做 得 更 好 。 

Nash[1950] 的 一 个 伟大 成 果 是 每 个 有 限 的 博弈 至 少 拥有 一 个 纳什 均衡 点 。 

【 例 10-10) 在 例 10-9 中 ， 当 pi 二 0.4，p; 二 0.3 时 有 唯一 的 纳什 均衡 。 它 的 含义 是 如 
果 射 门 者 的 pi 二 0.4， 那 无 论 守 门 员 做 什么 都 无 所 谓 ; 守门 员 都 会 有 同样 的 回报 ， 所 以 
pj; 二 0.3 是 一 个 最 好 回应 (任何 其 他 策略 也 一 样 )。 同 样 ， 如 果 守 门 员 的 pj; 二 0.3， 那 无 论 射 
门 者 做 什么 都 无 所 谓 ; 每 一 个 策略 也 一 样 ， 包 括 pi 二 0.4， 是 一 个 最 好 回应 。Agent 可 以 在 
两 个 动作 中 随机 选择 唯一 的 原因 是 动作 是 否 有 同样 的 期 望 效用 。 两 个 动作 的 所 有 的 随机 混合 
具有 同样 的 效用 。 为 混合 概率 选择 一 个 特定 值 的 原因 是 为 了 防止 其 他 Agent 利用 这 种 偏离 。 

有 很 多 多 个 纳什 均衡 点 的 例子 。 考 虑 下 面 的 2-Agent 和 2- 动 作 的 博弈 。 

【 例 10-11] 假设 两 个 Agent 要 竞争 一 个 资源 。 每 个 Agent 可 以 选择 像 一 只 鹰 或 者 一 
只 鸽子 来 行动 。 假 设 这 个 资源 价值 为 R + H5c, ROO, MRT Agent MRM, 
则 它们 共享 这 个 资源 。 如 果 一 个 Agent RM AER — RAS FIVE. ABME Agent 会 得 到 资 
源 而 饮 子 Agent 什么 也 得 不 到 。 如 果 它 们 都 像 座 动 作 ， 就 会 破坏 资源 并 且 每 个 Agent 将 得 
到 回报 为 一 D， 其 中 D 二 0。 这 可 以 由 下 面 的 收益 和 矩阵 来 描述 : 


Agent 2 
fF it 
Agen MF | Ro, RJ | oR | 
a [| 0 [a] 


在 这 个 矩阵 中 ，Agent 1 选择 行 ，Agent 2 选择 列 ， 在 单元 格 里 的 收益 由 Agent 1 和 
Agent 2 的 回报 对 组 成 。 每 个 Agent 要 试 着 最 大 化 它 自身 的 回报 。 
在 这 个 博弈 中 有 三 个 纳什 均衡 : 
。 第 一 个 均衡 中 ，Agent 1 REE, Agent 2 像 鲍 子 动作 。Agent 1 不 想 要 偏离 ， 因 为 
那样 的 话 它们 就 必须 要 共享 资源 。Agent 2 不 想 要 偏离 ， 因 为 那样 的 话 就 有 破坏 。 
。 第 二 个 均衡 中 ，Agent 1 RETIREE, Agent 2 RMAF ATE. 
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。 第 三 个 均衡 中 ， 两 个 Agent 都 随机 地 动作 。 在 这 个 均衡 中 ， 有 一 些 破坏 的 几率 。 像 庆 
那样 动作 的 概率 随 着 资源 的 尺 值 上 升 ， 随 着 破坏 的 D 值 增加 而 下 降 。 参 看 习题 10. 1。 

在 这 个 例子 中 ， 你 可 以 想象 每 个 Agent 装 腔 作 势 地 要 表示 它 将 会 做 什么 ， 以 此 试图 迫 
使 均衡 有 利于 它 。 < 

拥有 多 个 纳什 均衡 并 非 来 只 来 自 对 手 的 情况 ， 如 下 图 的 示例 所 示 。 

【 例 10-12】 假设 有 两 个 想 在 一 起 的 人 。Agent 1 更 偏好 一 起 去 看 足球 比赛 ，Agent 2 
更 偏好 一 起 去 购物 。 如 果 他 们 不 在 一 起 的 话 他 俩 都 不 高 兴 。 假 设 他 俩 必须 要 同时 选择 做 什 
么 。 用 下 面 的 收益 抢 阵 来 表示 : 


Agent 2 





足球 购物 
Agent 1 足球 2, 1 0, 0 
购物 | 0,0 1,2 | 





在 这 个 矩阵 中 ，Agent 1 选择 行 ，Agent 2 选择 列 。 

在 这 个 博弈 中 ， 有 三 个 纳什 均衡 。 一 个 均衡 是 他 们 都 去 购物 ， 一 个 是 他 们 都 去 看 足球 
比赛 ， 一 个 是 随机 策略 。 

这 是 一 个 协调 (coordination) 的 问题 。 知 道 了 均衡 集 并 不 能 确定 哪个 Agent 要 做 什么 ， 
因为 一 个 Agent 要 做 什么 取决 于 另 一 个 Agent 要 做 什么 。 在 这 个 例子 中 ， 你 可 以 想象 他 们 
决定 选择 哪个 均衡 的 谈话 。 4 

即使 存在 一 个 唯一 的 纳什 均衡 ， 纳 什 均衡 也 不 能 保证 给 每 个 Agent 的 最 大 收益 。 下 面 
的 例子 是 囚徒 困境 (prisoner's dilemma) 的 另 一 种 形式 。 

【 例 10-13〗 试想 一 下 ， 你 和 一 个 你 将 再 也 不 会 遇 到 的 陌生 人 共同 参加 一 个 电视 游戏 ， 
你 们 每 个 人 都 有 选择 

。 自己 拿 100 美元 。 

。 给 另 一 个 人 1 000 美元 。 

这 可 以 用 下 面 的 收益 矩阵 来 描述 : 


Player 2 
拿 给 


给 0, 1100 1000, 1000 


无 论 对 方 Agent 如 何 选择 ， 每 个 Agent 自身 选择 拿 钱 均 比 给 钱 更 好 。 然 而 ， 两 个 Agent 
都 给 钱 却 比 都 拿 钱 更 好 。 

因此 ， 当 两 个 Agent 都 选择 拿 钱 时 ， 有 一 个 唯一 的 纳什 均衡 。 这 个 策略 组 合 的 结果 是 每 
个 参赛 者 拿 到 100 美元 。 两 个 参赛 者 都 给 钱 的 策略 组 合 结果 是 每 个 参赛 者 拿 到 1 000 美元 。 
然而 ， 在 这 个 策略 组 合 中 ， 每 个 Agent 会 因为 偏离 而 获得 额外 回报 ($1 100 一 1 000) 。 < 

关于 囚徒 困境 有 很 多 研究 ， 因 为 看 上 去 贪 禁 不 太 合理 ， 其 中 的 每 个 Agent 为 了 自己 的 最 
大 利益 去 做 ,结果 导致 每 人 更 糟糕 。 当 博 弃 进行 多 次 后 ，Agent 会 更 偏好 给 钱 ， 这 就 是 所 谓 
的 连续 囚徒 博弈 (sequential prisoner’s dilemma) 。 连 续 囚 徒 博弈 的 一 个 策略 是 针锋相对 (tit-for- 
tat) 策 略 : 每 个 参与 者 一 开始 采取 给 钱 ， 然 后 在 下 面 的 每 一 步 采取 另 一 个 Agent 先前 的 行为 。 
只 要 两 个 参与 者 都 不 知道 最 后 的 动作 ， 这 个 策略 就 是 一 个 纳什 均衡 (见习 题 10. 3) 。 


Player 1 


437 


438 


290 第 三 部 分 ”学习 与 规划 


不 仅仅 在 部 分 可 观察 的 博弈 中 有 多 个 纳什 鬼 衡 ， 甚 至 在 一 个 完全 信息 博弈 中 也 可 能 有 
多 个 纳什 均衡 ， 有 时 甚至 是 无 数 个 纳什 均衡 ， 如 下 面 的 示例 所 示 。 

【 例 10-14] 考虑 例 10-2 的 共享 博弈 。 在 这 个 博弈 中 有 无 数 个 纳什 均衡 。 有 一 组 均 
衡 ， 其 中 Andy 共享 Barb 在 中 心 节 点 对 于 共享 选择 “是 ”， 并 且 可 以 随机 地 做 其 他 选择 ， 
只 要 对 向 左 选择 说 “是 ”的 概率 小 于 或 等 于 0.5。 在 这 些 纳什 均衡 中 ， 他 们 都 能 得 到 1。 有 
另 一 组 纳什 均衡 ，Andy 保留 ，Barb 随机 地 做 出 选择 ， 以 便 在 左 分 支 说 “是 ?的 概率 大 于 或 
等 于 0. 5。 在 这 些 均衡 中 ，Barb 得 到 0, Andy 得 到 在 [1，2] 中 的 某 个 值 ， 这 取决 于 Barb 
的 概率 。 第 三 组 纳什 均衡 中 ，Barb 在 最 左 节点 选择 * 是 ”的 概率 是 0.5， 在 中 心 节 点 选择 
“E”, m Andy 以 任何 概率 在 “keep”" 和 “share” 之 间 随 机 选择 。 

假设 稍微 修改 一 下 这 个 共享 博弈 ， 让 Andy 贿赂 Barb 让 他 说 “是 ”。 这 个 可 以 通过 将 
收益 2，0 变 为 1.9，0. 1 做 到 。Andy 可 能 会 认为 :“ 如 果 在 0.1 和 0 之 间 选 择 ，Barb 会 选 
择 0.1， 所 以 我 应 该 保留 .” 但 是 Barb 可 能 想 :“ 我 应 该 对 0. 1 说 不 ， 这样 Andy 会 共享 我 
能 得 到 1.?" 在 这 个 例子 中 (甚至 忽略 最 右边 的 分 支 ) 有 多 个 纯 纳 什 均衡 ， 其 中 一 个 是 Andy 
保留 并 且 Barb 在 最 左 分 支 说 是 。 在 这 个 均衡 中 ，Andy 得 到 1.9，Barb 得 到 0.1。 还 有 另 
外 一 个 纳什 均衡 ，Barb 在 最 左 选择 节点 处 说 不 ， 并 且 在 中 心 分 支 处 说 是 ，Andy 选择 共 
享 。 在 这 个 均衡 中 ， 他 们 都 得 到 1。 这 似乎 是 对 Barb AF). Æ, Andy 可 能 认为 Barb 在 
做 一 个 空 的 威胁 。 实 际 上 如 果 他 选择 保留 ，Barb 为 了 最 大 化 她 的 效用 不 会 说 “不 ”。 < 

在 修改 后 的 共享 博弈 中 逆向 归纳 算法 只 能 找到 一 个 均衡 。 它 计算 出 了 一 个 子 博弈 完美 
均衡 ， 它 假设 Agent 在 每 一 个 要 选择 的 节点 处 选择 对 它们 有 最 大 的 效用 的 动作 。 它 假设 
Agent 在 不 符合 它们 的 利益 的 时 候 不 进行 威胁 。 在 前 面 修改 后 的 共享 博弈 的 例子 中 ， 它 假 
设 Barb 对 那个 小 贿赂 说 “是 ”。 然 而 ， 在 与 真正 的 对 手 交锋 的 时 候 ， 我 们 必须 要 注意 的 是 ， 
他 们 是 否 会 跟 进 我 们 可 能 认为 不 合理 的 威胁 。 


10. 4. 1 纳什 均衡 计算 


想 要 为 一 个 策略 形式 的 博弈 计算 纳什 均衡 ， 需 以 下 三 个 步骤 : 

D 剔除 劣势 策略 ; 

2) 确定 哪些 动作 将 拥有 非 零 概率 ， 这 就 是 所 谓 的 支持 集 ; 

3) 确定 支持 集中 动作 的 概率 。 

事实 证 明 ， 第 二 步 是 最 难 的 。 

1. 剔除 劣势 策略 

对 于 其 他 Agent 的 每 一 个 行为 ， 如 果 Agent A Hs, 的 效用 比 Agent A Ws: 的 效用 高 ， 
则 Agent A 的 策略 s, 就 占 优 于 策略 ss 。 被 另 一 个 策略 占 优 的 任何 纯 策 略 都 可 以 剔除 ， 不 
予 考虑 。 占 优 的 策略 可 以 是 一 个 随机 的 策略 。 可 以 重复 进行 剔除 。 

【 例 10-15) 考虑 下 面 的 收益 矩阵 ， 其 中 第 一 个 Agent 选择 行 ， 第 二 个 Agent 选择 列 。 
在 每 个 单元 格 里 是 一 个 收益 对 : Agent 1 的 收益 和 Agent 2 的 收益 。Agent 1 有 动作 {ai， 
bis ci}. Agent 2 有 动作 {ds ess fo}. 


Agent 1 
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〈 在 看 解决 方案 之 前 试 着 弄 清 每 个 Agent 应 该 做 什么 。) 

动作 c 可 以 删除 ， 因 为 它 被 动作 a A: 如 果 动 作 a 可 以 做 ，Agent 1 永远 不 会 做 
ci。 你 可 以 看 到 无 论 另 一 个 Agent 做 什么 ，Agent 1 做 wa 的 收益 比 做 c 的 收益 要 大 。 

一 旦 动作 c 被 剔除 ,动作 fe 也 可 以 被 剔除 ， 因 为 它 被 随机 策略 0.5X 心 十 0.5Xe 占 优 。 

一 旦 c 和 f; RIRH., bh 被 a HH, PW Agent 1 将 会 做 动作 a. HF Agent 1 要 做 
a,, Agent 2 要 做 d: 。 因 此 ， 这 个 博弈 中 Agent 1 的 收益 将 是 3，Agent 2 的 收益 将 是 5。 4 

如 果 对 于 其 他 Agent 的 所 有 动作 组 合 o» 

utility (sio +i) > utility (s20; si) 

ABA Agent i 的 策略 5, PER AK (strictly dominate) FREK s. wma KE. BE s 是 
一 个 随机 策略 ， 如 果 5s。 是 被 某 个 策略 s 严格 占 优 的 纯 策略 ， 那 么 ss 永远 不 会 出 现在 任何 
纳什 均衡 的 支持 集中 。 重 复 剔 除 被 严格 占 优 的 策略 具有 相同 的 结果 ， 在 操作 中 不 必 考 虑 剔 
除 的 次 序 。 

也 有 ”" 弱 占 优 2 的 概念 ， 即 在 上 述 公 式 中 的 大 于 号 被 替换 成 大 于 或 等 于 。 如 果 利 用 弱 占 
优 概念 ， 则 总 存在 一 个 由 非 占 优 策略 支持 的 纳什 均衡 。 然 而 ， 一 些 纳什 均衡 可 能 会 丢失 。 
此 外 ， 哪 些 均衡 会 丢失 取决 于 剔除 劣势 策略 的 顺序 。 

2. 计算 随机 策略 

我 们 可 以 利用 这 样 一 个 事实 ， 如 果 所 有 的 动作 对 Agent 有 相同 的 效用 (给 定 另 一 个 
Agent 的 策略 )， 则 该 Agent 只 能 在 动作 中 随机 选择 。 这 形成 了 一 组 约束 ,通过 解约 束 来 得 
到 一 个 纳什 均衡 。 如 果 这 些 约束 可 以 用 (0，1) 范 围 中 的 数字 来 解决 ， 并 且 为 每 个 Agent 所 
计算 的 混合 策略 不 会 被 Agent 的 另 一 个 策略 所 占 优 ， 那 么 这 个 策略 组 合 是 一 个 纳什 均衡 。 

回顾 一 个 支持 集 是 这 样 一 个 纯 策略 集 ， 即 在 纳什 均衡 中 每 个 策略 都 有 非 零 的 概率 。 

一 旦 劣势 策略 被 剿 除 ， 我 们 可 以 搜索 支持 集 来 决定 支持 集 是 否 将 形成 一 个 纳什 均衡 。 
注意 ， 如 果 一 个 Agent An 个 可 采取 的 动作 ， 那 么 就 有 2” 一 1 个 非 空 子 集 ， 并 且 我 们 必须 
搜索 不 同 Agent 的 支持 集 的 组 合 。 因 此 ， 除 非 没 有 非 劣势 动作 或 者 有 和 较 小 支持 集 的 纳什 均 
衡 ， 这 是 不 可 行 的 。 为 了 找到 简单 的 (在 支持 集中 动作 的 数量 方面 ) 均 衡 ， 我 们 可 以 从 小 到 
大 搜索 支持 集 。 

假设 Agent i 在 一 个 纳什 均衡 中 的 动作 a} ，…，at 中 随机 选择 。p! 是 Agent i 做 动作 
ai 的 概率 。o_;(p-,) 是 其 他 Agent 的 概率 函数 形式 的 策略 。 事 实 上 ， 一 个 纳什 均衡 具有 以 


FAR: p> 0, pl 一 1， 并 且 对 于 所 有 的 jj 

dita pte = utility (a! o(p) >i) 

我 们 还 可 以 要 求 做 动作 a) 的 效用 不 小 于 支持 集 外 的 动作 的 效用 。 因 此 ， 对 于 所 有 的 a ¢ 
{ais st, ait}, 

utility Cajon (p) vi) > utility la'o- (p+) si) 

【 例 10-16) 在 例 10-9 中 ， 假 设 守门 员 以 p; 的 概率 向 右 跳 并 且 射 门 者 以 p 的 概率 向 
右 跑 。 
如 果 和 守门员 向 右 跳 ， 进 球 的 概率 是 
0. 9p: +0. 20 — py) i 
如 果 守 门 员 向 堪 跳 ， 进 球 的 概率 是 
0. 3p, + 0.60 — pd 
唯一 的 一 次 守门 员 可 以 随机 选择 的 情况 是 以 上 两 者 相等 ， 即 如 果 
0. 9p, + 0.201 — pr) = 0. 3p, + 0.601 — pa) 
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求解 加 得 pr=0. 4, 

相似 的 ， 如 果 射 门 者 随机 选择 ， 无 论 射门 者 往 左 踢 还 是 往 右 踢 ， 进 球 的 概率 肯定 是 一 
样 的 : 

0.2p; +0.60 — p,) = 0. 9p; +0.30 — p;) 

求解 p; 得 加 一 0. 3。 = 

因此 ， 唯 一 的 纳什 均衡 是 p50. 4 p50. 3。 


10. 4.2 学 习 协 调 


由 于 存在 多 个 均衡 ， 在 许多 情况 下 ， 即 使 它 知道 这 个 博弈 的 所 有 后 果 和 Agent 的 效 
用 , 一 个 Agent 实际 上 并 不 明确 应 该 做 什么 。 然 而 ， 大 多数 实 际 的 策略 相遇 更 难 ， 因 为 
Agent 不 知道 后 果 以 及 其 他 Agent 的 效用 。 

另 一 种 由 计算 纳什 均衡 所 隐 含 的 深层 次 策略 性 推理 的 方法 是 尝试 学 习 执行 什么 样 的 动 
作 。 这 和 第 7 章 的 学 习 的 标准 设 定 是 完全 不 同 的 ， 标 准 设 定 中 Agent 了 解 学 习 的 是 一 些 未 
知 但 是 固定 的 概念 ; 在 这 里 ， 一 个 Agent 学 习 与 其 他 正在 学 习 中 的 Agent 交互 。 

本 节 给 出 了 一 个 简单 的 算法 ， 可 以 用 来 逐步 提高 一 个 Agent 的 策略 。 我 们 假设 ，Agent 
反复 地 玩 同一 个 博弈 并 且 根 据 它 们 做 得 怎么 样 来 学 习 做 什么 。 我 们 假设 每 个 Agent 总 是 用 
一 个 混合 策略 来 比赛 ; Agent 根据 收 到 的 收益 来 更 新 动作 的 概率 。 为 了 简单 起 见 ， 我 们 假 
设 一 个 单一 的 状态 ; 每 次 改变 的 只 有 其 他 Agent 的 随机 策略 。 

图 10-9 的 PolicyImprovement 算法 给 学 
J Agent 提供 了 一 个 控制 器 。 数 组 P 中 存放 
着 它 的 当前 随机 策略 ， 数 组 Q 中 存放 着 每 个 
动作 的 估计 收益 。Agent 根据 它 的 当前 策略 来 
采取 动作 ， 并 观察 动作 的 收益 。 然 后 它 更 新 它 
的 动作 值 的 估计 ， 并 且 通 过 增加 它 的 最 好 动作 
的 概率 来 改变 它 的 现 有 策略 。 

在 这 个 算法 中 ，n 是 动作 的 数目 (A 中 元 
素 的 数目 )。 首 先 ， 随 机 初始 化 P， 使 P 是 一 
个 概率 分 布 ; Q 被 任意 初始 化 为 0。 

在 每 个 阶段 ，Agent 根据 当前 的 分 布 P 


























i: procedure PolicyImprovement(A, a, 3) 
2: Inputs 

3: A: 动作 集 

4; a: 估计 动作 的 步 长 

5: 6; 概率 变化 的 步 长 

6; Local 

T: n: A 的 元 素数 量 

8: PCA): A 上 的 概率 分 布 
9: QUA]: 执行 A 的 估计 第 
10: a_best; 当前 最 好 的 动作 
ll: n=|A| 


12: ”PLAjJ 随 机 赋值 , Pla] >0 HJ PIa] = 1 
13: ”QL[al<-0， 对 每 一 个 aEA 





14; repeat 
选择 一 个 动作 a4。 执行 < 并 且 观 察 它 收 到 的 收 |15: select 动作 a 基于 分 布 P 
益 。 然 后 它 更 新 a 的 估计 收益 。 它 以 学 习 速率 | Serve payoff 


a 进行 梯度 下 降 ， 以 尽量 减少 动作 a 的 估计 收 
益 的 误差 。 如 果 收 益 超 过 了 它 先 前 的 估计 ， 就 
与 误差 成 比例 地 增加 估计 。 如 果 收 益 低 于 它 的 
估计 ， 就 减少 它 的 估计 。 
然后 根据 它 估计 的 Q@ 值 ， 计 算出 一 个 目 
前 最 佳 的 动作 a_best。( 假 设 ， 如 果 有 一 个 以 25, P[a'}+-0 
上 的 最 佳 动作 ， 可 以 将 任意 一 个 作为 a_besi。) until 终止 
它 通 过 (nn 一 1)6 来 增加 最 佳 动 作 的 概率 ， 通 过 6 图 10-9 ”学习 协调 算法 
来 减少 其 他 动作 的 概率 。 第 23 行 上 的 if 条 件 是 用 来 保证 概率 都 是 非 负 的 ， 并 且 总 和 为 1。 
即使 P 的 某 个 动作 概率 为 0， 也 可 以 偶尔 用 它 来 更 新 当前 值 。 在 下 面 的 例子 中 ， 我 们 


18: QLal<-Q[Lal-ta( payoff— QLal) 
19: a_best«-arg max(Q) 

20; Pla_best ]+-P[a_best]+nX6 

21, for each a'€ A do 

22: Pla’}+Pla']—8 

23: if Pla’ ]<0 then 

24; Pla_best ]<P[a_best]+ PEa’'] 
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假设 Agent 每 一 步 以 概率 0. 05 选择 一 个 随机 动作 ， 否 则 根据 P 中 的 动作 的 概率 来 选择 每 
个 动作 。 
本 书 的 网 站 中 有 一 个 开放 源 代码 的 Java 小 程序 ， 实 现 了 学 习 控 制 器 。 


【 例 10-17】 图 10-10 显示 了 例 10-12 的 学 习 算 

法 的 一 个 情境 。 这 个 图 给 出 运行 了 7 次 学 习 算 法 的 0 ENNE 

Agent 1 选择 足球 和 Agent 2 选择 购物 的 相对 概率 。 y OB 

每 一 条 线 是 一 次 运行 。 en ta 
结束 。 在 这 些 运 行 中 ,策略 是 随机 初始 化 的 ， 

0.1, 6=0.01。 < 

如 果 其 他 的 Agent 采用 一 个 固定 的 策略 (即使 
该 策略 是 一 个 随机 策略 ) ， 这 个 算法 也 将 收敛 到 一 个 
最 佳 应 对 (只 要 和 6 足够 小 ,并且 Agent 偶尔 随机 
尝试 所 有 的 动作 ) 。 
tenes Agent 都 使 用 这 种 学 习 控 TTS ee 

如 果 在 纯 策略 里 有 唯一 的 纳什 均衡 ， 并 且 所 有 的 ”图 10.10 足球 购物 的 学 习 协 调 的 例子 
Agent 使 用 这 个 算法 ,它们 将 会 收敛 到 这 个 均衡 。 劣 势 策 略 会 将 其 概率 设 为 零 。 在 例 10-15 
中 ， 存 在 纳什 均衡 。 同 样 ， 对 于 例 10-13 中 的 囚徒 困境 ， 它 将 会 收敛 于 两 个 Agent 都 采取 
“take” 行 为 的 唯一 均衡 。 因 此 ， 这 个 算法 没有 学 习 合 作 (cooperate)， 囚 徒 困境 里 合作 的 
Agent 两 方 都 会 采取 “give” 动 作 以 使 它们 的 收益 最 大 化 。 

如 果 有 多 个 纯 均衡 ， 这 个 算法 将 收敛 到 其 中 的 一 个 。 因 此 Agent 要 学 习 协 调 (coordi- 
nate), ZEW 10-12 足球 赛 -购物 博弈 中 ， 它 将 会 收敛 到 两 个 都 去 购物 或 者 两 个 都 看 去 足球 
赛 中 的 一 个 均衡 。 收 敛 到 哪 一 个 取决 于 初始 策略 。 

oy Em loge ere ee 

【 例 10-183 图 10-11 显示 了 两 个 参赛 者 对 
例 10-9 使 用 学 习 算法 的 情况 。 此 图 描绘 了 运行 一 次 
学 习 算法 中 守门 员 向 右 跳 和 射门 者 向 左 踢 的 相对 概 A 
率 。 在 这 次 运行 中 ，x 一 0.1，6 一 0. 001。 学 习 算法 
在 均衡 之 间 循 环 ， 但 从 来 没有 真正 达到 均衡 。 < Bo. y 

考虑 2-Agent 竞争 性 博 弃 ， 其 中 只 有 一 个 随机 o Ce 
的 纳什 均衡 。 如 果 Agent A 正在 和 另 一 个 Agent B RO. mE Z ara 
比赛 ， 其 中 有 一 个 纳什 均衡 ，Agent A 执行 它 的 支 
持 集中 的 哪个 行为 都 可 以 ; 因为 它们 对 A 有 相同 
值 。 因 此 ，Agent A 往往 会 偏离 均衡 。 需 要 注意 的 
是 ， 当 A 偏离 均衡 策略 时 ， 对 Agent B 来 说 最 好 
的 回应 是 确定 性 地 比赛 。 当 Agent B 最 终 使 用 这 个 图 1011 BR RRS ST 
算法 时 ， 注 意 到 A 已 经 偏离 均衡 且 Agent B 改变 它 的 策略 。Agent B 也 将 要 偏离 这 个 均 
衡 。 然 后 Agent A 能 尝试 利用 这 个 偏差 。 当 它们 都 用 这 个 控制 器 时 ， 每 个 Agent 的 偏差 都 
可 以 被 利用 ， 而 且 它 们 接近 于 循环 。 

这 个 算法 不 能 使 Agent 处 于 一 个 随机 的 均衡 。 不 让 Agent 偏离 均衡 太 远 的 一 个 方法 是 
采用 赢 或 快速 学 习 (win or learn fast，WoLF) 策 略 : 当 Agent 赢 的 时 候 ， 它 采取 小 的 步骤 





.2 0.3 0.4 0. 
守门 员 向 右 跳 的 概率 
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(6 是 小 的 ); 当 Agent 输 的 时 候 ， 它 采取 较 大 的 步骤 (6 是 增加 的 )。 当 它 赢 的 时 候 ， 它 趋 
向 于 保持 相同 的 策略 ， 当 它 输 的 时 候 ， 它 会 尝试 迅速 采取 行动 以 达到 一 个 更 好 的 策略 。 为 
了 定义 胜利 ， 对 于 Agent 来 说 一 个 简单 的 策略 是 看 它 是 否 比 迄 今 为 止 它 收 到 的 平均 收益 
更 好 。 l 

要 注意 的 是 ， 没 有 完美 的 学 习 策 略 。 如 果 对 方 Agent 知道 Agent A 正在 使 用 的 准确 策略 
(无 论 是 不 是 学 习 的 )， 并 且 可 以 预测 Agent A 将 要 做 什么 ， 那 么 它 就 可 以 利用 这 些 知识 。 


10.5 群体 决策 


通常 情况 下 ， 群体 的 人 必须 决定 该 群体 将 做 什么 。 社 团 是 典型 的 例子 ， 投 票 就 是 用 来 
确定 群体 想 要 什么 。 看 起 来 投票 是 一 个 决定 一 个 群体 想 要 什么 的 很 好 的 方式 ， 并 且 当 有 一 
个 明确 的 最 优先 选择 时 ， 它 就 是 一 个 好 的 方式 。 然 而 ， 当 没有 一 个 明确 的 优先 选择 时 ， 投 
票 有 很 多 关键 问题 ， 如 下 面 的 例子 所 示 。 

【 例 10-19] 考虑 一 个 采购 Agent 必须 要 为 一 群 人 根据 他 们 的 偏好 来 决定 一 个 度假 目 
的 地 。 假 设 有 三 个 人 ，Alice、Bob 和 Cory， 三 个 目的 地 ，X、Y 和 2Z。 假设 Agent 有 以 下 
偏好 ，> 意 思 为 严格 地 偏好 : 

。 Alice: X>Y>Z, 

* Bob: Y>Z>X, 

« Cory; Z>X>Y. 

给 定 这 些 偏 好 ， 在 一 个 投票 对 中 ，X>Y 是 因为 在 三 人 中 的 两 个 人 更 偏好 和 X。 同 样 ， 
在 投票 中 ，Y>Z 并 且 Z>X。 因 此 ,通过 投票 得 到 的 偏好 是 不 可 传递 的 。 这 个 例子 被 称 为 
孔 多 赛 悖 论 (Condorcet paradox)。 事 实 上 ， 在 这 种 情况 下 并 不 明确 群体 的 结果 是 什么 ， 因 
为 它 在 结果 之 间 是 对 称 的 。 < 

社会 偏好 函数 (social preference function) 为 一 个 群体 给 出 了 一 个 偏好 关系 。 我 们 希望 
社会 偏好 函数 依 顿 于 群体 中 的 个 人 偏好 。 和 孔 多 赛 悖 论 看 起 来 似乎 是 一 个 投票 对 的 问题 ; 但 
是 ,下面 的 结果 表明 这 种 悖 论 随 着 任何 社会 偏好 函数 发 生 。 

命题 10. 1( 阿 罗 不 可 能 定理 ) 如 果 有 三 个 或 者 更 多 的 结果 ， 任 何 社会 偏好 函数 不 能 同 
时 具有 以 下 性 质 : 

。 社会 偏好 函数 是 完备 的 并 且 是 传递 的 。 

。 允许 个 人 具有 完备 可 传递 的 偏好 。 

。 如 果 在 个 人 偏好 中 有 o 二 oz ， 那 么 在 群体 偏好 中 有 0, >0,, 

。 在 结果 四 -和 oa P, 群体 偏好 仅仅 取决 于 个 人 对 om 和 0s 的 偏好 ， 而 不 取决 于 个 人 

对 其 他 结果 的 偏好 。 

。 没有 个 人 可 以 单方 面 决 定 结果 ( 非 独 裁 性 )。 

当 构 建 一 个 Agent 拥有 个 人 偏好 并 且 给 出 社会 偏好 ， 我 们 必须 要 清楚 我 们 不 可 能 拥有 
所 有 直观 的 和 理想 的 特性 。 与 其 给 出 一 个 具有 不 理想 性 质 的 群体 偏好 ， 还 不 如 指出 个 体 偏 
好 间 是 如 何不 可 调和 的 。 


10.6 机 制 设 计 


前 面 的 Agent 选择 动作 的 讨论 中 ， 假 设 每 个 Agent 都 要 一 个 预定 义 的 博弈 。 机 制 设计 
的 问题 是 设计 一 个 博弈 ， 对 于 不 同 的 Agent 有 理想 的 特性 。 
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一 个 机 制 (mechanism) 指 定 了 每 个 Agent 可 行 的 动作 和 每 个 动作 组 合 的 结果 分 布 。 我 
们 假设 Agent 在 结果 上 具有 效用 。 

一 个 机 制 应 具有 下 面 两 个 常见 的 理想 性 质 : 

。 Agent 应 该 很 容易 使 用 机 制 。 给 定 Agent 的 效用 ， 对 Agent 来 说 应 该 很 容易 决定 

做 什么 。 无 论 其 他 Agent 做 什么 ， 一 个 占 优 策略 (dorminant strategy) Xt Agent 来 
说 是 最 好 的 策略 。 如 果 Agent 有 一 个 占 优 策略 ， 不 需要 上 一 节 中 的 复杂 策略 推理 ， 
它 就 能 做 最 好 的 动作 。 如 果 每 个 Agent 都 有 一 个 占 优 策略 ， 并 且 在 占 优 策 略 中 Agent 
最 好 的 策略 就 是 声明 它 的 真实 偏好 ， 那 这 个 机 制 就 是 真正 的 (truthful) 占 优 策略 。 
在 一 个 真正 的 占 优 机 制 中 ，Agent 只 需 简单 地 声明 它 的 真实 偏好 ; Agent 不 可 能 
通过 操纵 机 制 而 得 到 自己 的 更 好 收益 。 

。 一 个 机 制 应 该 给 出 聚集 了 所 有 Agent 的 最 好 结果 。 例 如 ， 如 果 选 择 的 结果 能 最 大 

化 所 有 Agent 效用 的 总 和 ， 那 这 个 机 制 在 经 济 上 就 是 有 效 的 。 

【 例 10-20] 假设 你 想 设 计 一 个 会 议 调 度 程 序 ， 用 户 输 入 他 们 空闲 的 时 间 ， 调度 程序 
选择 一 个 开会 的 时 间 。 第 一 种 机 制 是 用 户 指定 他 们 是 否 空闲 的 时 间 ， 并 且 调 度 程序 选择 大 
多 数 人 都 空闲 的 时 间 。 第 二 种 机 制 是 用 户 指 定 他 们 不 同时 间 的 效用 ， 并 且 调 度 程序 选择 效 
用 总 和 最 大 化 的 时 间 。 这 些 机 制 都 不 是 真实 的 占 优 策略 。 

对 于 第 一 种 机 制 ， 用 户 可 以 声明 他 们 某 些 时 间 是 不 可 行 的 且 不 能 强制 一 个 他 们 更 偏好 
的 时 间 。 我 们 并 不 清楚 ， 一 个 确定 的 空闲 时 间 是 否 是 预先 定义 好 的 ; 在 某 个 阶段 ， 用 户 必 
须 决 定 他 们 是 否 很 容易 重新 安排 在 一 些 特定 时 间 要 做 的 其 他 事情 。 不 同 的 人 更 改 为 其 他 活 
动 安排 可 能 有 不 同 的 阅 值 。 

对 于 第 二 种 机 制 ， 假 设 有 三 个 人 ，Alice、Bob 和 Cory， 并 且 他 们 必须 决定 是 否 在 周 
一 、 周 二 ,或 者 周三 开会 。 假 设 对 于 开会 日 期 他 们 有 以 下 的 效用 : 





经 济 有 效 的 结果 是 在 周二 开会 。 然 而 ， 如 果 Alice 要 把 周二 的 评估 改 成 2， 这 个 机 制 
将 会 选择 周三 。 因 此 ，Alice 有 动机 去 谎报 她 的 值 。 诚 实 不 符合 Alice 的 利益 。 4 

需要 注意 的 是 ， 如 果 有 一 个 机 制 ， 它 有 占 优 策略 ， 那 就 有 一 个 机 制 ， 它 是 真正 占 优生 
略 。 这 就 是 所 谓 的 启示 原理 (revelation principle) 。 要 实现 一 个 真正 的 占 优 策略 机 制 ， 我 们 
原则 上 可 以 写 一 个 程序 接受 来 自 Agent 的 真正 偏好 ， 并 且 为 这 个 Agent 的 原始 机 制 提供 最 
优 输入 。 从 本 质 上 讲 ， 这 个 程序 可 以 最 好 地 为 Agent 说 谎 。 

事实 证 明 ， 设 计 一 个 合理 的 占 优 策略 机 制 是 不 现实 的 。 只 要 有 三 个 或 者 更 多 的 可 以 选 
择 的 结果 ， 唯 一 占 优 策略 的 机 制 有 一 个 独裁 者 (dictator): 有 一 个 Agent， 它 的 偏好 决定 结 
果 。 这 就 是 Gibbard-Satterthwaite 定理 。 

获得 真正 占 优 策略 机 制 的 一 个 方法 是 引入 货币 。 假 设 货币 可 以 添加 到 效用 ， 对 于 任何 
两 个 结果 o 和 o 来 说 ， 每 个 Agent 都 有 一 定 的 (可 能 是 负 的 ) 数 4d， 这 样 该 Agent 对 结果 
o 和 otd 无所谓 。 通 过 给 Agent 一 个 报酬 使 其 接受 一 个 它们 不 喜欢 的 结果 ， 或 者 支付 报 
酬 来 得 到 一 个 它们 想 要 的 结果 ， 我 们 可 以 保证 Agent 不 会 通过 说 谎 来 获 益 。 

在 VCG 机 制 (VCG mechanism) 或 者 Vickrey-Clarke-Groves 机 制 中 ，Agent 要 声明 每 
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个 结果 的 值 。 我 们 可 以 选择 值 的 总 和 最 大 的 结果 。Agent 根据 它们 的 参与 影响 结果 的 多 少 


来 支付 。Agent i 的 支付 为 ， 其 他 Agent 选择 的 结果 的 值 的 总 和 减 去 Agent i 没有 参与 的 


448 


其 他 Agent 的 值 的 总 和 。 假 设 Agent 只 关心 它们 的 效用 ,不 关心 其 他 Agent 的 效用 或 者 
其 他 Agent 的 支付 ， 这 个 VCG 机 制 是 经 济 高 效 的 并 且 是 真正 占 优 策略 。 

【 例 10-21] 考虑 例 10-20 中 的 值 。 假设 给 定 的 值 可 以 被 解释 为 美元 ; 例如 ，Alice 对 
于 在 周一 还 是 周二 开会 并 支付 8 美元 并 不 关心 (她 准备 支付 7. 99 美元 而 不 是 8. 01 美元 来 
把 开会 从 周一 移 到 周二 ) 。 给 定 了 这 些 声明 的 值 ， 周 二 被 选择 作为 会 议 日 。 如 果 Alice 没有 
参加 ， 周 一 将 会 被 选中 ， 并 且 其 他 的 Agent 有 3 美元 的 净 亏 损 ， 所 以 Alice 必须 要 支付 3 
美元 。 然 后 她 的 净值 为 5 美元 ， 即 周二 的 效用 8 美元 减 去 支付 的 3 美元 。 下 表 中 给 出 声 
明 、 支 付 和 净值 ， 





如 果 Alice 改变 她 对 周二 的 评估 为 2 美元 ， 考 虑 下 将 会 发 生 什 么 。 在 这 种 情况 下 ， 周 三 将 会 
被 选择 作为 会 议 日 ， 但 是 Alice 将 有 一 个 新 的 2 美元 值 ， 却 必须 支付 8 美元 (14 一 6 译 者 
注 )， 所 以 状况 将 进一步 恶化 。Alice 不 可 以 通过 对 机 制 说 谎 来 获 益 。 < 

出 售 一 个 物品 或 者 一 批 物品 的 一 个 常见 机 制 是 拍卖 (auction) 。 出 售 单一 物品 的 常见 拍 
卖 类 型 是 一 个 加 价 拍卖 。 当 以 前 的 报价 达到 时 ,通过 一 个 预定 的 增 量 来 不 断 增加 ， 就 有 这 
个 项 目的 一 个 当前 报价 。 以 当前 价格 提出 购买 这 个 物品 被 称 为 出 价 。 对 一 个 特定 的 价格 只 
有 一 个 人 可 以 竞标 。 出 价 最 高 并 且 支 付 相应 金额 的 人 将 获得 该 物品 。 

考虑 出 售 单一 物品 的 VCC 机 制 。 假 设 有 一 些 Agent， 他 们 每 人 以 自己 对 该 物品 的 估 
价 来 出 价 。 最 大 化 收益 的 结果 是 这 个 物品 给 出 价 最 高 的 人 。 如 果 他 们 没有 参加 ， 该 物品 将 
给 第 二 高 的 投标 人 人。 因此， 根据 VCC 机 制 ， 最 高 的 投标 人 应 得 到 这 个 项 目 并 且 支 付 第 二 
高 的 出 价 ， 这 就 是 第 二 价格 拍卖 (second-price auction) 。 第 二 价格 拍卖 等 价 于 (招标 增 量 ) 
有 一 个 加 价 拍卖 ， 其 中 人 们 使 用 一 个 代理 出 价 ， 并 有 一 个 Agent 来 把 代理 出 价 转换 为 真正 
的 出 价 。 第 二 出 价 拍卖 中 竞价 非常 简单 ， 因 为 Agent 不 必 做 复杂 的 策略 推理 。 确 定 一 个 胜 
者 及 合理 的 支付 也 很 容易 。 


10.7 本 章 小 结 


。 一 个 多 Agent 系统 是 由 多 个 可 以 自主 行动 并 且 对 结果 有 他 们 自身 效用 的 Agent 组 成 。 结 果 取 决 于 
所 有 Agent 的 行动 。Agent 可 以 竞争 、 合 作 、 协 调 、 通 信和 和 协商。 

> 博弈 的 策略 性 形式 指出 了 每 个 Agent 给 定 的 控制 器 的 预期 结果 。 

。 对 于 博弈 树 来 说 ， 博 弈 的 扩展 形式 通过 时 间 模 型 化 了 Agent 的 动作 和 信息 。 

一 个 多 Agent 决策 网 络 模型 化 了 概率 的 依赖 性 和 信息 可 用 性 。 

。 完备 信息 博弈 可 以 通过 回溯 博弈 树 中 的 值 ， 或 者 使 用 极 大 极 小 of 剪 枝 搜索 博弈 树 来 解决 。 

在 部 分 可 观察 的 领域 ， 有 时 随机 动作 是 最 好 的 。 

。 纳什 均衡 对 每 一 个 Agent 是 一 个 策略 组 合 ， 在 该 均衡 中 没有 Agent 可 以 通过 单方 面 偏离 这 个 组 合 
来 增加 它 的 效用 。 

。 Agent 可 以 通过 重复 博弈 学 习 协 调 , 但 是 学 习 一 个 随机 策略 是 很 困难 的 。 
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+ 通过 引入 支付 ， 可 以 设计 一 种 机 制 实现 经 济 有 效 的 真正 的 占 优 策 略 。 
10.8 参考 文献 及 进一步 阅读 


对 于 多 Agent 系统 的 概述 ， 请 参阅 Shoham 和 Leyton-Brown[2008], Stone 和 Veloso[2000]，Wool- 
dridge[ 2002] 和 Weiss[1999], Nisan, Roughgarden, Tardos 和 Vazirani[ 2007] 概 述 了 算法 博弈 论 的 当前 
研究 前 沿 。 

多 Agent 决策 网 络 基于 Koller 和 Milch[ 2003] 的 MAIDs。 

极 小 8 BH Hart 和 Edwards[1961] 首 次 发 布 。Knuth 和 Moore[1975] 和 Pearl[1984] 分 析 了 ep8 剪 
枝 和 其 他 搜索 博弈 树 的 方法 。BallardL1983] 讨 论 了 极 大 极 小 是 如 何 与 机 会 节点 结合 的 。 

深蓝 国际 象棋 由 Campbell, Hoane Jr. 和 Hse[2002] 所 描述 。 

博弈 的 学 习 和 WoLF 策略 基于 Bowling 和 Veloso[2002]。 

机 制 设 计 由 Shoham 和 Leyton-Brown[2008]，Nisan[2007] 和 微观 经 济 学 教科 书 ， 如 Mas-Colell, 
Whinston 和 GreenL1995] 所 描述 。Ordeshook[1986] 对 群体 决策 和 博弈 论 有 很 好 的 描述 。 


10.9 习题 


10.1 对 于 例 10-11 HMA FE. 4 D>0 A R>0 时 ， 每 个 Agent 试图 最 大 化 它 的 效用 。 存 在 一 个 随 
机 策略 的 纳什 均衡 吗 ? 概率 是 多 少 ? 每 个 Agent 的 预期 收益 是 多 少 ? KH MARA A RAD 的 
函数 ) 。 写 出 你 的 计算 。 

10.2 在 例 10-12 中 ， 什 么 是 随机 策略 的 纳什 均衡 ? 在 这 个 均衡 中 ， 对 于 每 个 Agent 来 说 期 望 值 是 多 少 ? 

10.3 在 连续 的 囚徒 困境 中 ， 假 设 有 一 个 折扣 系数 y， 这 意味 着 在 每 个 阶段 停止 的 概率 是 Y。 对 于 7 的 所 
有 值 ， 针 锋 相对 是 一 个 纳什 均衡 吗 ? 如 果 是 ,证明 它 。 如 果 不 是 ， 那 ”的 哪些 值 是 纳什 均衡 ? 
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第 7 章 介绍 了 有 监督 学 习 ， 本 章 介绍 其 他 的 一 些 学 习 模 型 ， 包 括 学 习 更 为 丰富 的 表示 
形式 和 学 习 如 何 行动 等 问题 ， 这 使 得 学 习 能 够 和 推理 结合 在 一 起 。 首 先 介绍 无 监督 学 习 ， 
其 中 训练 数据 没有 给 定 类 别 信息 。 然 后 介绍 信念 网 络 学 习 ， 无 监督 学 习 是 信念 网 络 学 习 的 
一 种 特殊 情形 。 最 后 介绍 增强 学 习 ， 其 中 的 Agent 在 与 环境 交互 的 同时 学 习 如 何 行动 。 


11.1 RŽ 


第 7 介绍 了 有 监督 学 习 ， 其 中 依据 输入 特征 预测 的 目标 特征 在 训练 数据 中 是 存在 的 。 
在 聚 类 (clustering) 或 无 监督 学 习 (unsupervised learning) 中 ， 训 练 数据 没有 给 定 目 标 特征 ， 
目标 是 构建 一 个 自然 的 可 用 于 聚集 数据 的 分 类 。 

聚 类 的 基本 思想 是 将 样本 集 划 分 成 簇 (cluster) 或 类 (unsupervised learning) 。 每 个 类 预 
测 在 该 类 内 的 样本 的 特征 值 。 每 个 聚 类 都 有 一 个 预测 误差 ， 最 小 化 误差 的 那个 聚 类 是 最 
优 的 。 

LA 11-1] 诊断 助手 可 能 想 将 不 同 的 疗法 进行 分 组 ， 使 得 相同 组 内 的 疗法 具有 令 人 满 
意 或 不 满意 的 治疗 效果 。 诊 断 助手 可 能 不 会 为 病人 提供 这 样 一 种 药物 : 与 之 相似 的 药物 已 
经 对 类 似 的 病人 造成 了 可 怕 的 后 果 。 

一 个 智能 教学 系统 可 能 想 根据 学 习习 惯 将 学 生 进 行 聚 类 ， 使 得 对 某 个 成 员 有 效 的 教学 
策略 也 适用 于 同类 内 的 其 他 成 员 。 <i 

在 硬 聚 类 (hard clustering) 中 ， 每 个 样本 是 明白 无 误 地 属于 某 个 类 。 该 类 可 用 于 预测 
样本 的 特征 值 。 另 一 种 方法 是 软 聚 类 (soft clustering) ， 其 中 每 个 样本 在 它 属 于 的 类 上 存在 
一 个 概率 分 布 。 样 本 特征 的 预测 值 是 该 样本 所 属 类 的 预测 的 加 权 平 均值 ， 权 值 是 样本 属于 
某 类 的 概率 。 


11.1.1 期 望 最 大 化 


期 望 最 大 化 (Expectation Maximization, EM) 算法 可 用 于 聚 类 。 对 于 给 定 的 数据 ， 
EM 学 习 这 样 一 个 原理 : 它 说 明 如 何 分 类 每 个 样本 和 预测 每 个 类 的 特征 值 。 其 基本 思想 
是 : 从 随机 理论 或 随机 已 分 类 的 数据 出 发 ， 重复 下 面 的 两 个 步骤 直至 收敛 : 

E: 使 用 现 有 的 理论 分 类 数据 。 

M: 使 用 现 有 的 数据 分 类 生成 最 优 的 理论 。 

E 步骤 为 每 个 样本 生成 期 望 的 分 类 。M 步骤 在 给 定 已 分 类 的 数据 的 前 提 下 生成 最 可 能 
的 理论 ， 它 是 一 个 监督 学 习 问 题 。 作 为 一 个 迭代 算法 ， 它 可 能 陷入 局 部 最 优 ; 不 同 的 初始 
值 会 影响 找到 的 最 终 理论 。 

下 面 两 节 介绍 EM 算法 的 两 个 实例 。 
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11.1.2 K- 均 值 


k- 均 值 算法 (k-means algorithm) 用 于 硬 聚 类 。 该 算法 的 输入 是 训练 样本 和 类 别 的 数目 
k， 输 出 是 个 类 的 集合 、 每 个 类 各 个 特征 的 预测 值 和 样本 与 类 别 的 对 应 关系 。 

&- 均 值 算 法 假定 特征 均 为 数值 型 ， 目 标 是 当 样 本 的 预测 值 源 于 样本 所 属 的 类 别 时 ， 找 
到 最 小 化 平方 和 误差 的 类 别 划分 。 


假定 玉 是 样本 的 集合 ， 输 入 特征 为 Xi ，…，X,。valil(e，X;) 是 输入 特征 X; 在 样本 e 
上 的 值 。 我 们 将 为 每 个 类 分 别 关 联 一 个 整数 i€ {1，…，&}。 
-均值 算法 的 输出 是 : 


。 PM clas: EE 一 {1，…，k}。 这 意味 着 class(e) 是 样本 e 所 属 的 类 别 。 如 果 
class(e)=i, Re 属于 类 别 i。 

。 函数 pval。 对 于 类 别 i€ (1，…，R&} 和 特征 Xj, pualGi, X;) RMBA i 中 的 每 一 
个 样本 在 特征 Xi 上 的 预测 值 。 

给 定 class 函数 和 pval 函数 ,平方 和 误差 是 : 


2) > (pual (class(e) ,X;) — val(e,X,))* 
‘EE j=l 


我 们 的 目标 就 是 找 出 最 小 化 平方 和 误差 的 class 函数 和 pval BR. 

如 命题 7. 1 所 示 ， 为 了 最 小 化 平方 和 误差 ， 一 个 类 的 预测 值 应 该 是 属于 该 类 的 样本 预 
测 的 平均 值 。 不 幸 的 是 ， 存 在 非常 多 的 将 样本 划分 为 个 类 的 方法 ， 搜 索 其 中 最 优 的 划分 
并 非 易 事 。 

&- 均 值 算法 迭代 地 减少 平方 和 误差 。 首 先 ， 它 随机 地 为 每 个 类 别 赋予 样本 ;然后 执行 
下 面 两 个 步骤 : 

M: 对 于 每 个 类 别 宇和 特征 X ， 指 定 poalGi, XI AMA val(e，X;) 的 平均 值 (e 属于 
HEH i) 

val (e,X;) 

pali, Xy) a Dinamoa ee) 

其 中 分 母 是 属于 类 别 i 的 样本 个 数 。 

E: 重新 为 每 个 样本 分 配 类 别 : 将 样本 。 分 配给 最 小 化 下 式 的 类 别 i: 


X (peal (i, Xi) — val (e,X;))? 
j=l 


重复 上 述 两 个 步骤 直至 第 二 步 不 再 改变 样本 的 分 配 。 

如 果 执 行 M 步 和 玉 步 不 改变 样本 的 分 配 ， 则 称 这 种 分 配 是 稳定 的 (stable)。 注 意 ,， 稳 
定 分 配 的 类 别 标签 的 任意 排列 仍然 稳定 的 。 

&- 均 值 算法 最 终 将 收敛 到 一 个 稳定 的 局 部 最 值 。 这 是 易于 理解 的 ， 因 为 平方 和 误差 保 
持 减少 的 趋势 和 仅 存 在 有 限 次 的 分 配 。' 该 算法 常常 经 过 少数 几 次 和 迭代 就 收 和 化。&- 均 值 算法 
不 能 保证 收敛 到 一 个 全 局 的 最 小 值 。 为 了 改善 该 算法 的 结果 ， 可 以 尝试 不 同 的 初始 分 配 ， 
多 运行 几 次 该 算法 。 

【 例 11-2] Agent 已 经 观察 到 了 下 列 (X,，Y) 数 据 对 : 

CO. 7;5.1),€1.5,6),(€2.1,4.5),€2. 4,5. 5),(3,4. 4),(3.5,5),¢4. 5,1, 5), 

(5. 2,0. 7),(5. 3,1. 8), C6. 2,1. 7), (6. 752.5), (8.559. 2) 09. 1,9. 7) 509. 5,8. 5) 
11-1a 画 出 了 这 些 数据 点 。 假 定 Agent 想 将 这 些 数据 聚 成 两 类 。 
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在 图 11-1b 中 ,数据 点 随机 分 配给 了 类 : 一 类 用 十 表示 ， 另 一 类 用 义 表示 。 十 类 的 均 
值 是 (4.6，3. 65) ，X 类 的 均值 是 (5.2，6. 15)。 

在 图 11-1lc 中 ， 各 个 数据 点 根据 其 与 两 个 均值 点 的 距离 重新 进行 了 分 配 。 重 新 分 配 后 ， 
十 类 和 XX 类 的 均值 分 别 变 为 (3. 96，3. 27) 和 (7. 15，8. 34) 。 

在 图 11-1d 中 ， 数 据点 重新 分 配给 与 其 最 近 的 均值 点 所 代表 的 类 。 这 个 分 配 是 稳定 
的 ， 因 为 进一步 的 重新 分 配 不 会 改变 样本 的 类 属 关系 。 

不 同 的 数据 点 初始 分 配 可 能 给 出 不 同 的 聚 类 结果 。 另 一 个 可 能 出 现 的 聚 类 结果 是 图 中 
最 下 面 的 那些 点 (Y 值 小 于 3 的 点 ) 组 成 一 个 类 ， 其 他 点 组 成 另外 一 个 类 。 

如 果 类 别 的 数目 设 为 3， 则 该 运行 该 算法 会 将 图 中 数据 划分 成 三 部 分 : 右上 角 一 类 、 
左 中 部 一 类 和 最 下 面 的 一 类 。 4 



















































































4 6 
c) 首次 重新 分 配 d) 最 终 的 稳定 分 配 


11-1 & 均 值 算法 (二 2) 在 例 11-2 的 数据 上 的 运行 过 程 

k- 均 值 算法 的 一 个 问题 是 需要 考虑 各 维 数值 的 相对 比例 大 小 。 例 如 假定 有 三 个 特征 : 
height, age 和 一 个 二 元 特征 ， 那 么 你 必须 对 不 同 的 值 域 按 比例 缩放 ， 以 便 它们 之 间 可 以 
进行 比较 。 如 何 缩 放 也 会 影响 聚 类 的 结果 。 

Agent 可 以 通过 搜索 找 出 一 个 合适 的 类 别 数目 。 注 意 : 只 要 存在 的 不 同 的 样本 个 数 大 
Fk, k+l 个 类 别 总 是 比 个 类 别 具 有 更 小 的 误差 。 一 个 自然 的 类 别 数 目 应 该 满足 这 样 
的 条 件 : 从 & 一 1 个 类 别 到 个 类 别 ,， 误差 的 下 降 非 常 明显 ; 而 再 增加 上 ， 误 差 的 下 降 并 不 
明显 。 此 外 ， 将 数据 聚 为 三 类 的 最 优 划分 和 聚 为 两 类 的 最 优 划 分 可 能 是 非常 不 同 的 。 


11.1.3 用 于 软 聚 类 的 期 望 最 大 化 


EM 算法 可 以 用 于 软 聚 类 。 直 观 地 ， 对 于 聚 类 而 言 ，EM 算法 类 似 于 均值 算法 ， 不 
同 的 是 前 者 中 的 样本 是 以 一 定 的 概率 属于 某 类 ， 且 该 概率 定义 了 距离 度量 。 这 里 假定 特征 
是 离散 型 的 。 
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与 &- 均 值 算法 一 样 ， 给 定 了 作为 输入 数据 的 训练 样本 和 类 别 的 数目 。 

当 进 行 聚 类 的 时 候 ， 类 的 作用 是 预测 特征 的 值 。 为 了 将 EM BAF RRA. RK 
用 朴素 贝 叶 斯 分 类 器 作为 分 类 的 模型 ， 其 中 ,输入 特征 以 一 定 的 概率 依赖 于 类 别 ;， 在 给 定 
类 别 的 条 件 下 ， 输 入 特征 之 间 是 相互 独立 的 。 类 变量 有 个 值 ， 假 定 为 {1，…，k}。 

给 定 朴 素 贝 叶 斯 模型 和 训练 数据 ，EM 算法 产生 分 类 器 所 需 的 概率 ， 如 图 11-2 所 示 。 
图 中 的 C 代表 类 变量 。 已 知 类 变量 的 概率 分 布 和 给 定 类 别 条 件 下 的 特征 的 概率 ， 则 可 以 分 
类 任意 的 新 样本 。 
> 概率 


P(C) 

P(X,|©) 
PRIO 
PIO 
P(X,| OC) 





图 11-2 EM 算法 : 带 有 隐藏 类 的 贝 叶 斯 分 类 器 


为 了 初始 化 EM 算法 ， 我 们 用 类 别 特 征 C 和 计数 特征 count 的 列 扩充 数据 集 。 每 一 个 
原始 的 元 组 均 被 映射 为 & 个 元 组 (每 个 元 组 对 应 一 个 类 ) 。 随 机 指定 这 些 元 组 的 计数 值 ， 使 
得 它们 的 和 为 1。 例 如， 对 于 具有 四 个 特征 和 三 个 类 别 的 数据 集 ， 我 们 可 能 有 以 下 结果 : 


Xı X: Xs X, C |Count| 





如 果 训 练 样本 包含 多 个 具有 相同 输入 特征 值 的 元 组 ， 则 可 将 这 些 元 组 在 扩充 数据 集中 
组 合 在 一 起 。 如 果 训 练 数据 包含 这 样 的 m 个 元 组 ,它们 的 输入 特征 具有 相同 的 指定 值 ， 则 
在 具有 这 些 特征 值 的 扩充 数据 集中 ,计数 和 等 于 m, 

如 图 11-3 所 示 的 EM 算法 ， 同 时 维护 概率 表 和 扩充 数据 集 。E 步 更 新 计数 值 ，M 步 
更 新 概率 值 。 

M 步 








zarea 
D r a : oo: : P(C) 
fee ears ae 
P(X,|C) 
P(X,|C) 
P(X 1O 
E 步 
11-3 无 监督 学 习 的 EM 算法 
详细 的 算法 见 图 11-4， 其 中 ，A[X, ，…，X, ，C] 代 表 扩 充 数据 集 ，M,[X,，C] 是 分 
ti P(X;，O0) 的 边缘 概率 ，P(X;，C) 可 由 A 导出; P;[X;，C] 代 表 条 件 概 率 P(X; |C). 


算法 重复 下 面 两 个 步骤 : 
。 下 步 。 基 于 概率 分 布 更 新 扩充 数据 集 。 假 定 在 原始 数据 集中 存在 元 组 (2 Svs + 
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X, 王 vw) 的 m 个 备份 ， 则 在 扩充 数据 集中 ， 与 类 c 关联 的 存储 于 ALw，…，w,，c] 
的 计数 值 更 新 为 : 

mX P(C = c|X, = ys sX, = Uz) 

注意 ， 在 该 步骤 中 涉及 概率 推理 ， 如 后 所 述 。 

*。 M 步 。 由 扩充 数据 集 推断 模型 的 最 大 似 然 概 率 。 这 和 从 数据 中 学 习 概 率 是 一 样 的 问题 。 




























1: procedure EM(X, D, k) 

2: Inputs 

3; X 特征 集 久 二 {Xi1， vee, Xa} 

4: 刀具 有 特征 {Xi， g: X,) 的 数据 集 

5; kk 类别 的 数目 

6: Output 

T: P(O), P(X; |C) 对 于 每 一 个 i (1: njih C= il, e, k} 
8: Local 

9: 实 值 数组 ALXi， oe, Xas c] 

10: 实 值 数组 PCC] 





ll; 实 值 数 组 M;[X;，C]， 对 于 每 一 个 1E (1: n} 
12; 实 值 数 组 PLX ，C]， 对 于 每 一 个 iE (1. n} 
13; :一 卫 中 的 元 组 数 

14; ”任意 指定 PLC] 和 已 [Xi ，C] 的 值 


15: repeat 

16 DE 
17; for —P FRI X=, «+, X= v) E D do 

18; G me | (X=, +, Xya=va) ED | 

19; for 每 一 个 cE {1: k}do 

20; Alu, + Une c]=mX P(C=C|Xi =a, “Xn =v) 






22: for each ¿€ (1: n}do 







23: M.[X;. C= Dixy Xj Rpg eX, ADM » wae 全 Xa C] 
M;[ X;,C] 
24; PiX: Cj] = 去 一 一 一 一 一 一 
ZJM;TXi,C] 
C 
25: P[C]=2x, x, ADs eP Xas C]/s 






11-4 无 监督 学 习 的 期 望 最 大 化 


上 述 给 出 的 EM 算法 从 随机 选择 的 概率 开始 运行 ， 初 始 的 计数 也 是 虚构 的 。EM 算法 
将 收敛 于 数据 的 局 部 最 大 似 然 值 。 当 结果 的 改变 足够 小 的 时 候 可 以 终止 算法 的 运行 。 

该 算法 返回 一 个 可 用 于 分 类 已 存在 或 新 的 样本 的 概率 模型 。 分 类 一 个 新 样本 和 计算 上 
述 算法 第 20 行 式 子 的 值 的 方法 是 一 样 的 ， 即 
PCC 一 c) X TT e. =u |C =o) 
P(C = c|X, = wa X, = wn) = — 

> PCC =d) X [[ P(X, = 4 |C =’) 

上 述 概率 是 最 终 学 习 模 型 的 一 部 分 。 
注意 上 述 算法 与 -均值 算法 的 相似 性 。E 步 以 一 定 的 概率 将 样本 分 配给 类 ，M 步 确定 


类 别 的 预测 是 什么 。 
【 例 11-3〗 考虑 图 11-3, 假定 EF' 是 扩充 的 样本 集 ( 即 增加 了 类 变量 C 和 计数 count 列 ) 


且 存 在 mw 个 样本 。 因 此 ，E' 中 的 计数 和 总 是 m. 
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在 第 M 4, POCSEK C= 一 :的 计数 的 比例 ， 
>) A[R C= 订 

扫描 一 遍 数 据 集 就 可 以 计算 上 式 的 值 。 

由 于 M4[X;，Cj 可 写成 
六 [Js 


因此 ， 通 过 扫描 一 遍 数 据 集 更 新 所 有 的 M;LX;，Cj] 数 组 是 可 能 的 。 见 习题 11. 3。 可 以 通 
过 将 Mi 数组 归 一 化 来 获得 用 P: 数组 表示 的 条 件 概率 。 
第 下 步 更 新 扩充 数据 集中 的 计数 值 。 它 将 图 11-3 中 的 0. 4 替换 为 
P(C 王 1|z A Dz: Az A z4) 
_ Pla |C= DPCO z |C = DPC |C = Ple |C = DPC = 1) 





>) Pia |C = DPO a |C = ) Play |C = Pn |C = HPC = i) 
i=1 


这 些 概率 是 最 终 学 习 模 型 的 一 部 分 。 < 
注意 ， 只 要 二 1，EM 算法 事实 上 总 是 具有 多 个 局 部 最 大 值 。 特 别 的 ， 一 个 局 部 最 大 
值 所 对 应 的 类 标签 的 任意 排列 仍 将 得 到 一 个 局 部 最 大 值 。 


11.2 信念 网 络 学 习 


信念 网 络 给 出 一 个 随机 变量 集 的 概率 分 布 。 我 们 不 能 总 是 期 望 专家 能 够 提供 准确 的 模 
型 ， 通常， 我 们 想 从 数据 学 习 一 个 网 络 。 

从 数据 中 学 习 一 个 信念 网 络 能 够 说 明 许 多 问题 ， 这 些 问 题 依赖 于 知道 多 少 先 验 信息 以 
及 数据 集 的 完整 性 如 何 。 最 简单 的 情形 是 : 结构 是 已 知 的 ， 且 每 个 样本 中 的 变量 是 可 见 
的 ， 需 要 学 习 的 仅 是 概率 。 另 一 个 极端 的 情形 是 : 解释 数据 的 假设 变量 是 未 知 的 ， 且 存在 
不 完整 的 数据 (数据 的 丢失 不 能 假定 是 随机 的 ) 。 


11.2.1 概率 学 习 


如 上 所 述 ， 最 简单 的 情形 是 ， 我 们 已 经 知道 模型 的 结构 和 已 观察 到 所 有 的 变量 ， 此 
时 ， 我 们 仅 需 学 习 概 率 。 这 和 7. 3. 3 节 所 介绍 的 概率 学 习 非 常 类 似 。 

利用 经 验 数据 和 伪 计 数 或 者 依据 Dirichlet 分 布 ， 我 们 可 以 单独 地 学 习 每 一 个 条 件 概率 分 布 。 

【 例 11-4] 图 11-5 显示 的 是 一 个 典型 的 情形 。 给 定 模 型 和 数据 ， 目 标 是 推断 概率 。 

例如 ，P(CE1AB) 其 中 的 一 个 元 素 是 


(# examples; E=t\ A=i\ B= +c 


P(E=1|A=t\ B= f= (# examples: A=t\ B= f) +c 








其 中 ，c 是 情形 E==t+A A 二 t+ 人 B 二 了 的 伪 计 模型 概率 

He. 是 情形 A 二 tA 人 B=/ 的 伪 计 数 。 注 意 ， 

a <c. < o OJE P(A) 
如 果 一 个 变量 拥有 多 个 父 节点 ， 使 用 计 (2) oo 

数 或 伪 计 数 可 能 导致 过 拟 合 。 对 于 父 变量 节 HAA 

点 的 一 些 组 合 而 言 ， 当 仅 存在 少量 样本 的 时 (C) (©) P(DIE) 


候 ， 过 拟 合 是 最 严重 的 。 此 时 ， 可 以 利用 第 图 11-5 ”从 模型 和 数据 中 学 习 概 率 
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7 章 介绍 的 一 些 技术 (例如 ， 叶 节点 为 概率 的 决策 树 学 习 、sigmoid 线性 函数 和 神经 网 络 ) 
避免 过 拟 合 。 在 给 定 变 量 X 的 父 节点 的 条 件 下 ,使 用 有 监督 学 习 方 法 学 习 X 的 条 件 概 率 
时 ， 父 节点 变 成 了 输入 节点 、X 变 成 了 目标 特征 。 决 策 树 可 用 于 任意 的 离散 变量 。sig- 
moid 线性 函数 和 神经 网 络 可 以 表示 一 个 二 元 变量 (给 定 其 父 节 点 ) 的 条 件 概 率 。 如 果 不 是 
二 元 变量 ， 则 可 使 用 指示 变量 。 


11.2.2 未 观察 到 的 变量 


另 一 种 比较 简单 的 情形 是 : 给 定 了 模型 ， 但 并 非 所 有 的 变量 是 可 见 的 。 隐 藏 变量 
(hidden variable) 或 潜在 变量 (latent variable) 指 的 是 在 信念 网 络 中 未 观察 到 其 值 的 变量 ， 
即 在 数据 集中 不 存在 与 该 变量 相对 应 的 列 。 

【 例 11-5) 图 11-6 显示 的 是 一 种 典型 的 情 模型 数据 > 概率 
形 。 假 定 所 有 的 变量 都 是 二 元 变量 。 模 型 中 包 (4) 
含 一 个 不 在 数据 集中 出 现 的 变量 E. HREF 
习 包 括 隐藏 变量 瓦 在 内 的 模型 的 参数 。 在 该 例 


P(A) 
P(B) 
P(E|A,B) 





子 中 ， 存 在 10 个 需要 学 习 的 参数 。 © (D) betel 
注意 ， 如 果 模 型 忽略 变量 下 ， 则 算法 必须 ~ 

学 习 P(A), P(B), P(C|AB)#l P(D|ABC), 图 11-6 ”从 缺失 数据 中 学 习 概率 

它们 总 共有 14 个 参数 。 引 入 隐藏 变量 的 原因 就 是 为 了 使 得 模型 更 为 简单 ， 因 而 也 就 更 不 

易于 产生 过 拟 合 。 a 


本 质 上 ， 学 习 带 有 隐藏 变量 的 信念 网 络 的 EM 算法 ( 见 图 11-7) 与 用 于 聚 类 的 EM 算法 
是 一 样 的 。 前 者 的 玉 步 可 能 涉及 更 复杂 的 概率 推理 ， 因 为 对 于 每 一 个 样本 ， 它 都 需要 在 给 
定 观 察 到 的 变量 的 条 件 下 ， 推 断 隐藏 变量 的 概率 。 用 于 聚 类 的 EM 算法 的 M 步 从 扩充 数 
据 集 中 推断 模型 的 概率 ， 这 和 前 节 讨论 的 可 观察 到 所 有 变量 的 情形 是 一 致 的 ; 但 是 在 扩充 
数据 集中 ， 计 数值 不 一 定 是 整数 。 





图 11-7 EM 算法 用 于 带 有 隐藏 变量 的 信念 网 络 


11.2.3 缺失 数据 


除了 未 观察 到 的 变量 之 外 ， 不 完全 数据 也 可 能 是 因为 其 他 原因 而 导致 的 。 数 据 集 的 某 
些 元 组 缺失 一 些 变量 的 值 是 可 能 的 。 当 一 些 变量 的 值 缺失 的 时 候 ， 我 们 使 用 这 些 数 据 集 就 
必须 十 分 小 心 ， 因 为 缺失 的 数据 可 能 和 我 们 感 兴趣 的 现象 相关 。 

【 例 11-6) 假定 存在 一 种 据 称 对 某 种 疾病 有 效 的 治疗 方法 ， 其 实 这 种 治疗 方法 对 该 种 
疾病 根本 无 效 ， 它 只 能 使 病情 加 重 。 如 果 随 机 地 指定 病人 接受 这 种 治疗 ， 则 应 该 将 最 严重 
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的 病人 排除 在 实验 之 外 ， 因 为 病情 太 严 重 致使 他 们 不 能 参与 这 项 实验 。 与 没有 接受 这 种 治 
疗 的 病人 相 比 ， 接 受 这 种 治疗 的 病人 将 以 更 快 的 速度 退出 实验 。 因 此 ， 如 果 和 忽略 了 病人 的 
缺失 数据 ， 则 这 种 治疗 看 起 来 好 像 是 有 效 的 。 接 受 这 种 治疗 且 仍 然 没 有 退出 实验 的 病人 会 
越 来 越 少 。 < 

如 果 数 据 的 缺失 是 随机 的 ， 则 可 以 忽略 这 些 缺 失 的 数据 。 然 而 ,“ 随 机 缺失 ”是 一 个 很 
强 的 假定 。 一 般 的 ，Agent 会 构建 一 个 解释 为 何 缺 失 数据 的 模型 ， 或 更 可 取 的 是 ， 它 应 该 
去 外 面 的 世界 调查 为 什么 数据 会 丢失 。 


11.2.4 结构 学 习 


如 果 我 们 拥有 完整 的 数据 且 不 存在 隐藏 变量 ， 但 信念 网 络 的 结构 未 知 ， 这 就 是 信念 网 
络 的 结构 学 习 (structure learning) 要 处 理 的 情形 。 

结构 学 习 存在 两 种 主要 的 方法 : 

。 利用 基于 条 件 独 立 性 的 信念 网 络 的 定义 。 给 定 变量 的 一 个 全 序 关 系 ， 使 得 变量 X 
KIRE X 的 前 驱 变量 的 子 集 ， 而 其 他 变量 与 X 相互 独立 。 这 种 方法 存在 两 个 
挑战 性 的 问题 : 其 一 是 如 何 确 定 最 优 的 全 序 关系 ; 其 二 是 要 找 出 一 种 度量 独立 性 
的 方法 。 当 只 有 有 限 的 数据 时 ， 确 定 条 件 独立 性 是 不 容易 的 。 

。 第 二 种 方法 对 网 络 进行 评分 (例如 利用 MAP 模型 )， 它 同时 考虑 与 数据 的 匹配 性 
和 模型 的 复杂 性 。 给 定 这 样 的 一 个 度量 ， 我 们 就 可 以 搜索 最 小 化 误差 的 结构 。 

本 节 只 讨论 第 二 种 方法 ， 通 常 称 之 为 搜索 与 评分 (search and score) 方 法 。 

假定 数据 是 样本 集 正 ， 其 中 每 个 样本 的 变量 值 均 已 知 。 

搜索 与 评分 方法 的 目标 是 选择 最 大 化 下 式 的 模型 ; 

P(model | data) cc P(data | model) P(model) 

其 中 似 然 性 PC data |model) 是 每 一 个 样本 概率 的 乘积 。 利 用 积 的 分 解 ， 给 定 模型 的 前 提 下 
每 一 个 样本 概率 的 乘积 是 每 一 个 变量 概率 的 乘积 (给 定 变 量 父 节 点 的 条 件 下 )。 因 此 ， 
P(data | model) P(model) = ( [| P(e|model) ) P( model) 


= ( [| [[ Pissa (X: | par (CX; ,model)) ) (model) 
EE X; 


其 中 ，par(Xi,model) 是 X: MQW A Pran C) 是 样本 e 在 模型 中 的 概率 。 
上 式 的 最 大 化 可 以 通过 最 大 化 它 的 对 数 形式 来 实现 。 当 采用 对 数 形式 时 ， 上 式 变 为 : 
logP (data | model) + logP(model) = >) >) log Pod: (X: | par (X; »model)) + logP (model) 


EE 


为 了 使 该 方法 切实 可 行 ， 假 定 将 模型 的 先 验 概率 分 解 为 每 个 变量 的 先 验 概率 ， 即 每 一 个 变 
量 所 代表 的 局 部 模型 的 乘积 。 令 model(Xi) 是 变量 X; 的 局 部 模型 。 则 目标 是 最 大 化 下 式 : 
2 > log Prades (X; | par (X; »model)) 十 > logP (model (X,)) 
= 2) (Dd loeP rea (X; | par (X; »model)) + J} logP(model (X; )) ) 
= 3) (Dd) logPivas (X; | par (X; smodel)) + logP (model (X;)) ) 
除非 信念 网 络 的 无 环 条 件 限制 了 变量 的 父 节 点 之 间 的 关系 ,否则 可 以 通过 单独 优化 每 个 


变量 来 优化 整个 模型 。 然 而 ， 如 果 给 定 变量 的 一 个 全 序 关 系 ， 则 会 面临 这 样 一 个 分 类 问 
题 : 在 给 定 变 量 的 前 驱 节 点 的 条 件 下 ,我 们 想 预 测 每 一 个 变量 的 概率 。 为 了 表示 
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P(X, | par(X;, model)), 我 们 可 以 使 用 诸如 叶 节 点 是 概率 的 决策 树 ( 见 7.5;1 节 )，, 或 者 
学 习 一 个 挤 压 线性 函数 。 给 定 变量 前 驱 节 点 的 评分 ， 我们 就 可 以 在 变量 的 全 序 上 进行 搜索 
以 最 大 化 模型 的 评分 。 


11.2.5 信念 网 络 学 习 的 一 般 情形 


信念 网 络 学 习 的 一 般 情形 是 : 网 络 结构 未 知 、 隐 藏 变量 和 缺失 数据 ， 甚 至 不 知道 存在 
什么 变量 。 此 时 存在 两 个 主要 问题 : 其 一 是 前 面 已 经 讨论 过 的 缺失 数据 问题 ; 其 二 是 计算 
的 复杂 性 问题 。 虽 然 存在 一 个 定义 明确 的 搜索 空间 ， 这 个 空间 太 大 致使 尝试 所 有 的 变量 排 
序 和 隐藏 变量 的 组 合 是 不 可 能 的 。 如 果 仅 仅 考虑 隐藏 变量 以 简化 模型 (这 看 起 来 是 合理 
的 )， 则 搜索 空间 虽然 是 有 限 的 ， 但 依然 太 大 。 

可 以 选择 最 优 的 模型 ( 即 具 有 最 大 后 验 概 率 的 模型 )， 也 可 以 取 所 有 模型 的 平均 值 。 取 
所 有 模型 的 平均 值 的 方法 能 给 出 较 好 的 预测 ， 但 对 于 一 个 必须 理解 或 证 实 模型 的 人 来 讲 ， 
这 种 方法 是 不 易 解 释 的 。 

组 合 上 述 方法 与 缺失 数据 是 一 个 更 困难 的 问题 ， 它 需要 更 多 的 领域 知识 。 


11.3 增强 学 习 


设想 在 现实 世界 中 行动 的 一 个 机 器 人 ， 它 接收 奖赏 或 惩罚 ， 并 由 此 决定 应 该 做 什么 。 
这 就 是 增强 学 习 (reinforcement learning) 的 问题 。 本 章 只 讨论 所 有 变量 均 可 见 的 单个 
Agent 增 强 学 习 ( 虽 然 10. 4. 2 节 介 绍 了 多 Agent 增强 学 习 的 一 种 简单 形式 ) 。 

可 以 用 马尔 可 夫 决 策 过 程 形 式 化 增强 学 习 ， 但 是 Agent 开始 的 时 候 只 知道 可 能 的 状态 
集 和 行动 集 。 因 此 ， 状 态 转移 函数 P(s' la, )SMKKBR Rs, a. s 7 初始 时 都 是 未 知 的 。 
Agent 能 够 在 现实 世界 中 行动 ， 而 且 在 每 一 步行 动 之 后 ， 能 够 观察 世界 的 状态 和 获得 什么 
奖赏 。 假 定 Agent 行动 的 目的 是 依据 折扣 因子 y 获得 最 优 的 折扣 。 

【 例 11-7] 考虑 如 图 11-8 所 示 的 微型 增强 学 习 问 题 ， 其 中 ，Agent 可 能 处 于 的 状态 有 
6 个 ， 记 为 ss，…，ss; Agent 具有 4 种 行为 ， 即 UpC,. Up, Left 和 Right。 这 些 是 
Agent 在 开始 行动 之 前 知道 的 所 有 信息 。Agent 不 知道 状态 是 如 何 设置 的 、 行 动 的 对 象 是 
什么 以 及 如 何 赢得 奖赏 。 


图 11-8 显示 了 6 个 状态 的 设置 情况 。 假 定 行动 的 含义 如 下 : TEES 
upC (表示 up carefully); Agent 向 上 走 ， 除 了 在 状态 % 和 ss 时 +10 

静止 不 动 (获得 奖赏 值 一 1) 。 a0] s | s | 
right: 在 状态 m、s 和 s 时 ，Agent 向 右 走 ， 获 得 奖赏 值 0; 四 四 


在 其 他 状态 时 ，Agent 静止 不 动 ， 获 得 奖赏 值 一 1。 
left: ERE s. s Als; BY, Agent 向 左 走 。 在 状态 s Bt, Agent 图 11-8 一 个 微型 增 


静止 不 动 ， 获 得 奖赏 值 一 1。 在 状态 ss 时 ，Agent 静止 不 aT 
动 ， 获 得 奖赏 值 一 100。 在 状态 sy 时 ，Agent EH s» $ 
得 奖赏 值 10。 


up: 除非 奖赏 值 是 0， 否 则 Agent 以 0. 8 的 概率 执行 与 upC 相同 的 行动 ， 以 0. 1 的 概 
率 执行 与 left 相同 的 行动 ， 以 0. 1 的 概率 执行 与 right 相同 的 行动 。 
假定 存在 一 个 折扣 率 是 0. 9 的 折扣 ， 这 可 以 解释 为 在 任意 步 又 中 Agent 离开 游戏 的 可 
能 性 是 0.1， 或 者 解释 为 Agent 更 喜欢 即时 而 非 未 来 的 奖赏 。 < 
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【 例 11-8) 11-9 显示 了 一 个 更 为 复杂 的 游戏 。Agent 可 以 位 于 25 个 网 格 中 的 任意 
一 个 ， 但 只 有 位 于 角落 网 格 时 才 有 奖赏 。 当 Agent 位 于 角落 网 格 
并 获得 奖赏 (奖赏 值 是 10) 后 ， 该 网 格 中 的 奖赏 值 就 会 消失 。 如 果 
网 格 中 没有 奖赏 ， 则 在 每 一 步骤 后 均 以 某 个 概率 在 其 中 的 一 个 角 
落网 格 中 出 现 奖赏 。 怪 物 可 以 在 任意 时 刻 出 现在 标 为 M 的 网 格 
中 。 如 果 怪 物 出 现在 Agent 所 在 的 网 格 ， 则 Agent 会 受到 损害 ， 
并 获得 一 10 的 奖赏 值 。Agent 可 以 通过 访问 修理 站 R 进行 修复 。 

在 这 个 例子 中 ， 状 态 由 4 个 元 素 构 成 : (X, Y, P, D), 
其 中 AY St Agent 所 处 位 置 的 横 坐 标 和 纵 坐 标 ，P 是 具有 奖 
赏 值 的 位 置 (如 果 P HXH, M P=0; MRP, 有 奖赏 ， 则 mi | 
P=1; P=2M P=3 以 此 类 推 。 如 果 没 有 奖赏 ， 则 P=, D BITS 网 格 游戏 的 环境 
是 布尔 变量 ， 当 Agent 受到 损坏 时 D 取 真 。 由 于 怪物 是 转瞬 即 逝 的 ， 因 此 不 必 包 含 在 状 
态 的 表示 之 中 。 状 态 的 总 数 是 5X5X5X2 二 250。 由 于 环境 是 完全 可 见 的 ， 因 此 Agent 知 
道 自己 处 于 什么 样 的 状态 ， 但 是 它 不 知道 状态 的 含义 ， 开 始 时 也 没有 关于 损坏 和 奖赏 是 什 

Agent 有 4 种 行为 : 向 上 、 向 下 、 向 左 和 向 右 。 这 些 行为 使 得 Agent 移动 一 步 (通常 
移动 的 方向 如 行为 的 名 称 所 示 ， 但 有 时 也 会 朝 其 他 方向 移动 )。 如 果 Agent 撞 上 外 墙 或 内 
墙 ( 位 置 尺 旁边 的 粗 线 ) ， 它 就 停 在 原 位 置 并 获得 奖赏 值 一 1。 

Agent 只 知道 存在 250 个 状态 和 4 个 行为 ， 每 一 时 间 它 处 于 什么 状态 ， 每 次 它 获得 了 
什么 奖赏 。 除 此 以 外 的 信息 它 一 概 不 知 。 

这 是 一 款 简单 的 游戏 ， 但 为 它 写 一 个 控制 程序 是 非常 困难 的 。 本 书 配套 的 网 站 上 提供 
了 一 个 Java 小 程序 ， 用 于 参考 和 修改 。 请 尝试 自己 写 一 个 这 样 的 控制 程序 ; 写 一 个 “每 运 
行 一 千 步 平均 获得 500 奖赏 值 ”的 控制 程序 是 可 能 的 。 学 习 该 游戏 也 是 不 容易 的 ， 因 为 只 
有 直到 Agent 意识 到 损坏 是 不 好 的 和 访问 R 可 以 修复 损坏 , 访问 R 看 起 来 才 有 意义 。 
Agent 必 须 在 努力 收集 奖赏 的 同时 跌跌撞撞 地 走 到 R 进行 修复 。 没 有 奖赏 的 状态 不 会 持续 
太 久 。 此 外 ，Agent 必须 在 没有 给 定 “ 损 坏 ” 的 概念 的 条 件 下 进行 学 习 ; 它 初始 时 只 知道 存 
在 250 个 状态 和 4 种 行为 。 < 

增强 学 习 是 困难 的 ， 原 因 如 下 : 

。 责任 归属 问题 (blame attribution problem) 指 的 是 确定 哪个 行为 对 奖赏 或 惩罚 负责 。 

该 行为 可 能 在 获得 奖赏 很 久 以 前 就 发 生 了 。 此 外 ， 往 往 不 是 单个 行为 而 是 在 适当 
的 环境 下 多 个 行为 的 组 合 才 获得 了 奖赏 。 例 如 ， 可 以 通过 比 输赢 训练 Agent 玩 游 
戏 ; Agent 必须 确定 想 获得 胜利 采取 什么 行动 才 是 明智 的 。 你 可 以 尝试 训练 一 条 
狗 : 当 你 回 家 时 发 现 家 里 一 片 狼藉 就 骂 “ 坏 狗 ”。 狗 必须 确定 ， 在 它 先前 的 所 有 行 
为 当中 ， 哪 些 导致 了 主人 的 训斥 。 

。 即使 状态 没有 发 生 改 变 ，Agent 行为 的 效果 也 是 依赖 于 Agent 未 来 将 做 什么 。 那 
些 开 始 时 看 似 不 好 的 行为 有 可 能 最 后 是 最 优 的 ， 这 是 因 我 们 并 不 知道 Agent 将 来 
要 做 什么 。 这 种 现象 在 规划 问题 中 是 常见 的 ， 但 在 增强 学 习 中 显得 较为 复杂 ， 因 
为 Agent 预先 并 不 知道 行为 的 后 果 。 

。 “探索 与 利用 ”两 难 问题 : 如 果 Agent 已 经 学 得 了 一 个 优秀 的 行动 方案 ， 它 是 继续 
这 种 方案 (利用 已 经 确定 的 行为 )， 还 是 探索 更 好 的 方案 ? 不 再 进行 探索 的 Agent 
将 沿 着 先前 得 到 的 方案 继续 前 行 ， 而 总 是 进行 探索 的 Agent 不 会 利用 学 到 的 知识 。 
该 两 难 问题 将 在 11. 3. 4 节 作 进一步 讨论 。 
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11. 3. 1 演化 算法 


求解 增强 学 习 的 一 种 方法 是 将 它 视 为 一 个 最 优化 问题 ， 目 标 是 选择 一 个 最 大 化 期 望 总 
奖赏 的 策略 。 可 以 通过 策略 搜索 (policy search) 的 方法 解决 该 优化 问题 ， 它 在 所 有 策略 构 
成 的 空间 中 进行 搜索 以 找到 最 好 的 策略 。 策 略 是 一 个 控制 程序 ， 可 以 在 Agent 活动 环境 中 
运行 该 程序 以 评估 其 性 能 。 

策略 搜索 的 做 法 通常 是 作为 一 个 随机 局 部 搜索 算法 在 策略 空间 中 进行 搜索 。 可 以 通过 
在 真实 环境 中 运行 多 次 来 评估 策略 的 好 坏 。 

策略 搜索 的 一 个 难点 是 如 何 表示 策略 。 从 初始 策略 开始 ， 然 后 在 真实 环境 中 反复 评估 
该 策略 并 选 代 地 提升 性 能 。 这 个 过 程 称 为 演化 算法 (evolutionary algorithm) ， 因 为 作为 一 
个 整体 的 Agent 的 评估 依赖 于 其 生存 状况 。 演 化 算法 往往 和 基因 算法 组 合 在 一 起 ， 基 因 算 
法 使 得 我 们 能 更 进一步 地 与 生物 的 进化 作 类 比 : Agent 之 间 相 互 竞争 会 导致 基因 突变 。 基 
本 思想 是 交叉 选择 提供 了 一 种 组 合 策略 最 佳 特 性 的 方法 。 

演化 算法 存在 一 些 问 题 。 首 先是 状态 空间 的 大 小 。 如 果 有 个 状态 和 x 个 行动 ， 则 有 
m” 种 策略 。 例 如 ， 例 11-7 描述 的 游戏 中 有 4 = 4 096 种 不 同 的 策略 ; 例 11-8 描述 的 游戏 
中 有 250 个 状态 ， 因 此 有 4 -1028 种 策略 。 这 是 一 个 非常 小 的 游戏 ， 但 它 可 能 的 策略 数 
却 超过 了 宇宙 中 所 有 粒子 的 数目 。 l 

第 二 ， 演 化 算法 以 一 种 极其 浪费 的 方式 利用 经 验 知 识 。 如 果 一 个 Agent 位 于 例 11-7 
所 示 的 状态 yy ， 并 且 移 向 左边 ， 此 时 你 希望 它 学 得 这 样 的 知识 : 从 状态 % 向 左 走 是 不 对 
的 。 但 是 演化 算法 一 直 要 等 到 Agent 已 经 从 整体 上 完成 和 评判 该 策略 之 后 才能 获得 这 样 的 
知识 。 随 机 局 部 搜索 将 在 状态 s 随机 尝试 其 他 行动 ， 因 此 虽然 可 能 最 终 判 定 那 个 行动 是 不 
对 的 ， 但 这 是 非常 不 直接 的 。 基 因 算 法 比 演化 算法 要 好 一 点 ， 因 为 Agent ERA s MA 
走 的 策略 会 导致 Agent 死亡 ， 但 依然 是 非常 不 直接 的 。 

第 三 ， 演 化 算法 的 性 能 对 策略 的 表示 形式 非常 敏感 。 基 因 算 法 中 策略 的 表示 应 该 使 得 
交叉 选择 将 策略 中 好 的 部 分 保留 下 来 。 策 略 的 表示 通常 是 随 着 不 同 的 特定 领域 而 调整 的 。 

本 章 的 剩余 部 分 将 讨论 “一 步 一 学 习 ” 的 方法 ， 即 不 是 从 整体 上 学 习 一 个 策略 ， 而 是 学 
习 策略 的 各 个 组 成 部 分 。 通 过 在 每 一 个 状态 中 学 习 做 什么 ， 我 们 能 使 问题 的 规模 控制 在 状 
态 数目 的 线性 范围 内 ， 而 非 状 态 数目 的 指数 范围 。 


11.3.2 时 间 差 
为 了 理解 增强 学 习 是 如 何 工作 的 ， 首 先 考 虑 如 何 调和 按 顺序 提供 给 Agent 的 经 验 信息 。 
假定 存在 一 系列 的 数值 vw 、v。、vs，*…， 目 标 是 在 给 定 前 面 数 值 的 条 件 下 预测 下 一 


个 数值 。 一 种 方法 是 取 *" 期 望 值 的 一 个 运行 逼近 。 例 如 ， 给 定 一 系列 学 生 的 成 绩 ， 下 一 个 
学 生 的 成 绩 的 合理 预测 是 前 面 这 些 成 绩 的 平均 值 。 
令 A, 是 基于 前 面 上 个 数据 点 证 ，…， 亿 的 期 望 值 的 估计 。 一 个 合理 的 估计 是 取 平 均值 : 


A: es 


由 此 ， 
RA, = u +H eet um t u = k Anm +o 
两 边 同 时 除 以 上 ， 得 到 


A= (1-4) +2 
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] 
a= Fz 则 


Ap = (1— a) Anm 十 ww = Ani Harlu — Ar) (11. 1) 
# vi 一 A_1 称 为 时 间 差 分 误差 (temporal difference error) 或 TD 误差 ， 它 说 明了 新 的 值 v 
与 旧 的 预测 值 Ai 之 间 的 差异 有 多 大 。 通 过 将 a RW TD 误差 来 更 新 旧 的 预测 值 A,_1， 
并 得 到 新 的 估计 值 A。 时 间 差 分 误差 的 定性 解释 是 : RMAF IAA HM. 
加 预测 值 ; 反之 ， 如 果 新 的 值 小 于 旧 的 预测 值 ， 则 减 小 预测 值 。 增 加 或 减少 的 量 和 新 的 值 
与 旧 的 预测 值 之 间 的 差 成 正比 。 注 意 ， 该 公式 对 于 第 一 个 值 (k= 二 1) 仍 然 成 立 。 

上 述 分 析 假 定 所 有 的 值 具有 相同 的 权重 。 然 而 ， 考 虑 对 学 生成 绩 的 期 望 值 做 保守 的 估 
Th: 如 果 学 校 开 始 时 给 的 成 绩 就 比较 高 ， 则 新 的 值 比 旧 的 成 绩 对 于 目前 的 估计 更 有 利 ， 因 
此 新 的 值 应 该 给 予 更 大 的 权重 。 

在 增强 学 习 中 ， 后 面 的 值 v;( 即 更 近 的 值 ) 比 前 面 的 值 更 准确 ， 应 该 给 予 更 大 的 权重 。 
对 后 面 的 样本 加 更 大 的 权重 的 一 种 方法 是 使 用 式 (11. 1)， 不 同 的 是 ， 这 里 的 a( O<a<l) 
是 一 个 不 依赖 于 & 的 常数 。 不 幸 的 是 ， 当 序列 中 存在 易 变 的 值 的 时 候 ， 它 不 能 收敛 到 平均 
值 。 虽然 如 此 ， 如 果 潜 在 的 过 程 致使 数值 发 生变 化 ， 它 能 够 追踪 这 种 变化 。 

可 以 采用 缓慢 地 减少 a 值 的 方法 获得 两 方面 的 益处 : 对 新 近 的 样本 加 更 大 的 权重 且 仍 
然 收 和 敛 于 平均 值 。 如 果 满 足下 列 条 件 则 可 保证 收敛 ; 


Sa =o fa < 
前 一 个 条 件 确保 随机 函数 和 初始 条 件 排除 了 平均 值 的 情况 ， 后 一 个 条 件 保证 收 伍 性 。 
注意 ， 当 潜在 的 过 程 使 得 生成 的 值 不 断 发 生变 化 时 ， ee Ie IEM 
做 更 优 的 预测 是 不 相 容 的 。 
在 本 章 的 后 续 部 分 ， 没 有 下 标的 “假定 是 一 个 常数 ， 带 有 下 标的 是 样本 个 数 的 函数 ， 
这 些 样 本 的 组 合用 于 特定 的 估计 。 


11.3.3 Q- 学 习 


在 Q- 学 习 及 其 相关 算法 中 ，Agent 试图 从 它 与 环境 的 交互 历史 中 学 习 最 优 的 策略 。 
Agent 的 历史 (history) 是 一 个 “状态 一 行为 一 奖赏 "序列 : 

{so rao tti 93) 9Q1 972 9352 e2 973 1S3 93 974 ;54 vee) 
意思 是 : Agent 在 状态 so 执行 了 行动 we ， 获 得 奖赏 na 和 到 达 状 态 ss 然后 执行 行为 a, 
获得 奖赏 re 和 到 达 状 态 s;， 以 此 类 推 。 

我 们 将 历史 的 交互 信息 看 做 经 验 的 一 个 序列 ， 经 验 (experience) 定 义 为 元 组 : 

(Ss@eres 》 
意思 是 : Agent 在 状态 s 执行 了 行动 A， 获 得 奖赏 > MBGARA s'o Agent 能 够 从 这 些 经 验 数据 
中 学 习 做 什么 。 和 决策 理论 规划 一 样 ，Agent 的 目标 是 最 大 化 某 个 量 ， 这 通常 是 折扣 奖赏 。 

回忆 一 下 ，Q*(s，a) 表 示 在 状态 s 执行 行动 a 的 期 望 值 (累积 折扣 )， 然 后 依据 最 优 的 
策略 执行 下 一 步行 动 。 

Q- 学 习 (Q-learning) 利 用 时 间 差 估计 Q"(s，a) 的 值 。 在 QA, Agent 维护 一 个 表 
QLS，4]， 其 中 S 和 Q 分 别 是 状态 和 行为 的 集合 。Q(s，o) 表 示 Q*(s，aQ) 的 当前 估计 值 。 

一 条 经 验 (s，a，r，s') 为 计算 Q(s，4a) 提 供 了 一 个 数据 。 这 个 数据 就 是 Agent 接收 的 
未 来 值 r+ VG), HP VCs) 一 maxsQ(s'，a’); 它 等 于 目前 的 奖赏 值 与 未 来 值 的 折扣 估 
计 的 和 。 新 的 数据 称 为 返回 值 。Agent 可 以 利用 时 间 差 公式 (11. 1) 更 新 Q(s，a) 的 估计 值 : 

QLs,a] + QAs,a]+alr+ y maxQ[s',a']— Q[s,a]) 


467 


468 


或 等 价 的 形式 ， 
Qls,a]<— O —a)Q[s,a]+a(r+y maxQ[y ‘a' ]) 


图 11-10 显示 了 Q- 学 习 控 制程 序 。 它 假定 a 取 固 定 值 ， 如果 a 是 变化 的 ， 则 对 于 每 一 
个 “状态 -行为 ”对 的 计算 是 不 同 的 ， 算 法 也 必须 记录 这 种 计算 过 程 。 


: controller Q-learning (S, A, y, a) 
Inputs 
S 是 状态 的 集合 
A 是 行为 的 集合 
7 是 折扣 率 
a 是 步 长 
Local 
实 值 数 组 QLCS, A] 
先前 状态 s 
先前 行动 a 
随机 初始 化 QLS，A] 
观察 目前 状态 s 
repeat 
选择 和 执行 一 个 行动 < 
观察 奖赏 ~ 和 状态 于 
Qs, a]+Q[s, a]t+alr+ymax,Q[s', a']—Q[s, a]) 
s*=s 


until 结束 





11-10 QQ 学 习 控制 程序 


只 要 在 任意 的 状态 Agent 尝试 一 个 行为 的 次 数 不 受 限制 ( 即 Agent 在 一 个 状态 不 会 总 
是 执行 相同 的 行动 子 集 )， 则 不 管 Agent 真正 依据 的 策略 是 哪个 ( 即 对 于 任意 的 状态 *， 无 
论 执 行 哪个 行动 c) ，Q- 学 习 算 法 都 学 习 一 个 最 优 的 策略 。 正 因为 如 此 ， 称 这 种 Q- 学习 为 
离 策略 (offtpolicy) 方 法 。 

【 例 11-9] 考虑 图 11-8 中 给 出 的 例 11-7。 假 定 这 里 有 一 个 经 验 (s，a，r，s') 的 序列 
和 更 新 值 (保留 两 位 小 数 ) (其 中 , y =0.9, a=0. 2; 所 有 的 Q 值 都 初始 化 为 0): 


s a r s' 更 新 值 





upC 5 ， upC]=—0.2 


S2 up 0 & Qls:, up]=—0 

s left 10 s Qis,, left]=2.0 

So upC 一 1] s Qi, upC]=—0. 36 
52 up 0 s Qls2+ up]=0. 36 

Ss let f 10 s Qis,, left]=3. 6 

So up 0 s Qls.» upC]=0. 06 

Sa up —100 s Qis:, up]=— 19. 65 
S2 up 0 s QLsz», up]=— 15. 07 


Sa left 10 s% Qis., left]=4. 89 


注意 奖赏 值 一 100 和 其 他 奖赏 值 是 如 何 调和 的 。 在 接收 到 奖赏 值 是 一 100 的 经 验 之 后 ， 
Qls:, up MA 


0.8 X 0. 36 +0. 2 X (— 100+ 0.9 X 0. 36) =— 19. 65 


在 下 一 步 ，Agent 执行 相同 的 行为 但 输出 结果 不 同 ， 此 时 Q[s:; ，upj 的 值 变 为 


0.8X (一 19.65) 十 0.2X(0 十 0.9X3.6) =— 15. 07 
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获得 在 状态 s 执行 up 行动 的 更 多 经 验 且 没有 接收 到 奖赏 值 一 100 之 后 ， 较 大 的 负 奖 
赏 值 将 最 终 被 正 奖 赏 值 所 调和 ， 因 而 对 QLs, ，upj 取 值 的 影响 就 降低 了 。 如 果 在 状态 s 执 
行 up 行动 且 重 新 接收 到 奖赏 值 一 100， 则 又 开始 新 一 轮 循环 。 < 

当先 前 的 估计 值 比 最 近 的 估计 值 更 糟糕 的 时 候 ， 考 虑 w 是 如 何 调和 奖赏 值 是 有 益 的 。 下 面 
的 一 个 例子 显示 了 确定 的 行为 序列 的 效果 。 注 意 ， 当 一 个 行为 是 确定 的 ， 我们 可 以 使 用 a==1。 

【 例 11-10) 考虑 例 11-7。 假 定 Agent 有 下 述 经 验 : 

(So sright 40.5; supC, —1,s;.upC, — 1,5; left ,0,5, ,le ft 10,59) 
并 多 次 重复 这 个 行为 序列 。( 注 意 ， 一 个 实际 的 Q- 学 习 Agent 不 会 持续 重复 相同 的 动作 ， [470 
特别 是 当 如 本 例 所 描述 的 Q- 学 习 记 录 的 时 候 ， 其 中 一 些 值 看 起 来 并 不 好 ， 但 我 们 认为 可 
以 帮助 手 解 Q- 学 习 是 如 何 工 作 的 。) 

图 11-11 显示 了 多 次 重复 执行 这 个 动作 序列 时 Q 值 是 如 何 更 新 的 。 上 述 表 中 的 Q 值 均 
初始 化 为 0。 














迭代 次 数 QLso right] Q[s1, upC] Q[ss, upC] Q[ss, left] Q[ss, left] 
0 0 
2 0 =f =J 4.5 10 
3 0 =q 0. 35 6.0 10 
4 0 —06. 92 1. 36 6. 75 10 
10 0. 03 0.51 4 8.1 10 
100 2.54 4.12 6. 82 9.5 11. 34 
1000 4.63 5. 93 8. 46 11.3 13. 4 
10 000 6. 08 7.39 9. 97 12. 83 14,9 
100 000 7.27 8. 58 11. 16 14. 02 16. 08 
1 000 000 8. 21 9. 52 12.1 14. 96 17. 02 
10 000 000 8. 96 10. 27 12. 85 15.71 17.. 47 
co 11. 85 13. 16 15. 74 18. 6 20. 66 
a) 一 个 确定 行为 序列 (每 一 个 “状态 一 行为 ?对 都 有 独立 的 as 值 ，ak 一 1/ 刀 的 QUE 


TERR RK QLso, right] Qlsi, upC] Qlss, upC] Qlss, left] QLsy, left] 








b 一 个 确定 行为 序列 (a 二 1) 的 Q- 学 习 
QLso, right] Qs. upC] Qlss, upC] QLss» left] Qi, left] 





19.5 21.14 24. 08 27. 87 30. 97 
c) 全 面 探索 并 收 人 敏之 后 的 Q 值 
图 11-11 例 11-10 描述 的 Q@ 学 习 的 过 程 。Q- 学 习 算法 的 某 次 特定 运行 的 更 新 值 
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a) 每 一 个 “状态 -行为 ”对 都 有 独立 的 ww 值 。 注 意 ， 第 一 次 迭代 只 更 新 了 即时 奖赏 值 。 
第 二 次 迭代 对 正 奖 赏 值 做 了 单 步 备 份 。 由 于 存在 另外 一 个 Q 值 是 0 的 行为 ， 所 以 没有 备份 
一 1。 第 三 次 迭代 做 了 两 步 备份 。Q[Ls;，upC] 得 以 更 新 的 原因 是 在 两 步 之 前 它 的 奖赏 值 是 
10。QLs;，upCj] 取 其 经 验 的 平均 值 : (一 1 十 (一 1) 十 (一 1 十 0. 9X6))/3。 

b) a 二 1]， 因 此 只 考虑 目前 的 估计 。 同 样 ， 每 次 迭代 都 对 奖赏 值 做 了 单 步 备份 。 在 第 
三 次 迭代 中 ，QLss ，xzzpC] 得 以 更 新 的 原因 是 在 两 步 之 前 它 的 奖赏 值 是 10; 但 由 于 此 时 a= 
1， 所 以 算法 忽略 了 先前 的 估计 值 ， 只 使 用 新 的 经 验 ， 即 一 1 十 0. 9X0.9。 a=1 HE a =1/k 
RA ERRMSG, 44TA EE R aS a AEE BA BRERA 
的 奖赏 值 和 最 终 的 状态 代表 了 未 来 的 奖赏 值 或 状态 。 

c) 图 11-11c 列 出 了 如 果 算 法 允许 Agent 进行 探索 (这 是 正常 现象 )， 则 收敛 之 后 的 部 
分 Q@ 值 。 注 意 ， 由 于 存在 随机 的 行为 ， 为 了 收敛 a 不 能 为 1; 此 时 的 Q@ 值 比 确定 行为 序列 
的 情形 大 的 原因 是 这 些 行 为 没有 形成 一 个 最 优 的 策略 。 

收敛 之 后 的 最 终 策略 是 : 在 状态 % 执行 动作 up， 在 状态 * 执行 动作 wpC， 在 状态 sı 
和 si 执行 动作 wp， 在 状态 s, 和 ss 执行 动作 left. 

你 可 以 运行 该 例子 的 小 程序 (在 本 书 配套 的 网 站 上 可 以 找到 ) ， 并 尝试 不 同 的 初始 值 和 
不 同 大 小 的 a。 < 


11.3.4 “探索 与 利用 


Q- 学 习 算法 没有 指定 Agent 实际 上 应 该 做 什么 。Agent 学 习 一 个 可 用 于 确定 最 优 行为 
的 Q 函数 。 下 列 两 件 事 是 值得 Agent 去 做 的 : 
。 利用 (exploit) 它 已 经 发 现 的 关于 目前 状态 s 的 知识 ， 该 知识 是 通过 执行 能 够 最 大 
化 QLs，aj 的 行为 a 而 获得 的 。 
。 探索 (explore) 的 目的 是 建立 当前 最 优 Q 函数 的 一 个 更 好 的 估计 。 换 句 话 说， 它 应 
该 选择 一 个 与 当前 看 来 是 最 优 的 行为 不 同 的 行为 。 
存在 许多 在 探索 和 利用 之 间 进 行 折衷 的 建议 方法 : 
。 e 贪 心 策略 以 1 一 e 的 概率 选择 贪心 的 行为 (最 大 化 QLs，aj] 的 行为 )， 以 。 的 概率 选 
择 随机 的 行为 ， 其 中 0<e 过 1。 随 着 时 间 的 推移 改变 。 的 大 小 是 可 能 的 。 直 观 的 ， 
在 算法 运行 的 早期 Agent 应 该 选择 一 个 比较 随机 的 策略 ， 以 促进 初始 探索 ， 随 着 
时 间 的 推移 ， 它 应 该 选择 越 来 越 贪 心 的 策略 。 
。 e- 贪 心 策略 的 一 个 问题 是 它 同等 看 待 所 有 的 行为 (最 优 的 行为 除外 )。 如 果 存 在 两 个 
看 起 来 较 好 的 行为 ， 以 及 多 数 看 起 来 没什么 希望 的 行为 ， 则 在 较 好 的 行为 中 做 选 
择 可 能 是 更 明智 的 ， 花 更 多 的 精力 在 这 些 有 希望 的 行为 中 确定 哪个 是 最 优 的 ， 而 
不 是 在 那些 没有 希望 的 行为 中 浪费 时 间 。 一 种 办 法 是 以 一 定 的 概率 选择 行为 4a， 这 
个 概率 依赖 于 QLs，aj 的 值 。 这 就 是 所 谓 的 “ 软 最 大 化 ”(soft-max) 行 为 选择 法 。 通 
常 的 方法 是 利用 Gibbs 或 波 尔 兹 曼 分 布 (Boltzmann distribution)， 其 中 在 状态 ; 选 
择 行 为 a 的 概率 与 ea 成 正比 。 具 体 的 ， 在 状态 * Agent 选择 行为 a 的 概率 是 
QU.al/r 
其 中 tr 二 0 是 温度 参数 ， 它 指定 应 该 选择 怎样 随机 的 值 。 当 r 较 大 时 ， 任 意 行为 被 选 
中 的 概率 几乎 一 样 ; 减少 r 值 ， 则 拥有 最 大 值 的 行为 被 选中 的 可 能 性 更 大 ; 当 r->0， 则 总 
是 选择 最 优 的 行为 。 
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。 男 一 种 方法 是 “ 面 对 不 确定 性 的 乐观 处 理 ”: 初始 化 Q 函数 使 得 能 够 促进 探索 。 如 
果 Q 函数 的 初始 值 较 大 ， 则 未 探索 的 区 域 看 上 去 也 是 不 错 的 ， 以 致 贪心 搜索 倾向 
于 进行 探索 。 虽 然 这 促进 了 探索 ,但 是 Agent 会 好 长 一 段 时 间 处 于 某 些 “状态 - 行 
为 "对 是 不 错 的 幻觉 ， 即 使 没有 证 据 表 明 这 一 点 。 一 个 状态 看 上 去 很 糟 糕 ， 仅 当 它 
的 所 有 行为 看 上 去 很 糟糕 ! 但 是 当 所 有 的 行为 表明 这 个 状态 是 不 错 的 时 候 ， 获 得 
实际 值 已 经 花费 了 很 长 时 间 。 换 言 之 ，Q 函数 旧 的 估计 值 可 能 是 十 分 糟糕 的 ， 但 
却 可 能 保留 很 长 一 段 时 间 。 为 了 提高 收敛 速度 ， 初 始 值 应 该 和 最 终 值 尽 量 接 近 ; 
一 个 过 高 的 估计 会 降低 收敛 的 速度 。 如 果 改 变 了 状态 转移 函数 ， 则 仅仅 依赖 “ 面 对 
不 确定 性 的 乐观 处 理 ” 是 没有 用 的 ， 因 为 它 将 初始 的 时 间 段 视 作 探索 的 时 间 ， 初 始 
探索 过 后 ， 探 索 就 越 来 越 少 了 。 

研究 探索 策略 和 更 新 a 的 方法 之 间 的 相互 影响 是 有 趣 的 ， 见 习题 11. 8。 


11.3.5 增强 学 习 算法 的 评估 


一 个 增强 学 习 算法 的 优 劣 可 以 通过 考察 Agent 在 现实 世界 中 找到 怎样 的 策略 和 获得 多 
少 奖赏 来 评判 。 更 重要 的 是 ， 它 取决 于 Agent 将 如 何 被 部 署 应 用 。 如 果 在 部 署 之 前 Agent 
有 充足 的 时 间 进 行 安稳 的 学 习 ， 则 最 终 的 策略 可 能 是 最 重要 的 。 如 果 Agent 必须 在 部 署 的 
同时 进行 学 习 ， 那 么 它 可 能 永远 也 不 会 到 达 “ 学 得 了 最 优 策略 ”的 阶段 ;在 学 习 过 程 中 所 接 
收 的 奖赏 可 能 就 是 Agent 和 欲 最 大 化 的 目标 。 
展示 一 个 增强 学 习 算法 性 能 的 一 种 方法 是 用 图 表 画 出 随和 迭代 步 数 的 变化 而 变化 的 累积 
奖赏 值 ( 至 今 为 止 接收 到 的 奖赏 值 的 和 )。 如 果 一 种 算法 的 曲线 总 是 在 另 一 种 算法 的 曲线 之 
上 ， 则 说 明 前 者 更 优 。 
【 例 11-11] 图 11-12 比较 了 在 例 11-8 所 示 的 游戏 上 的 4 种 Q 学 习 算 法 的 性 能 。 该 图 
的 生成 使 用 了 本 书 配套 网 站 上 的 小 程序 的 “跟踪 控制 台 ” 功 能 。 


50 000 


40 000 


-10 000 
0 50 100 150 200 


迭代 步 数 〈 单 位 : 千 ) 
11-12 ” 随 着 迭代 步 数 的 增加 而 变化 的 累积 奖赏 值 


图 上 的 4 种 不 同 的 Q- 学 习 由 3 个 方面 规定 : a 是 否 取 固定 值 、Q 函数 的 初始 值 和 行为 


474 


314 RERI 学 习 与 规划 


选择 的 随机 程度 。 它 们 在 开始 的 100 000 迭代 步 中 ， 以 80%( 即 e=0. 2) 的 概率 贪心 利用 学 
得 的 知识 ; 在 后 续 的 100 000 迭代 步 中 ， 这 种 概率 则 为 100%( 即 e 二 0)。 图 中 最 上 面 的 算 
法 性 能 最 好 。 

对 一 个 算法 而 言 ， 不 同 次 运行 的 结果 会 有 很 大 的 差异 ， 因 此 为 了 准确 地 比较 这 些 算 
法 ， 我 们 必须 多 次 运行 相同 的 算法 。 在 这 个 例子 中 ， 累 积 奖赏 值 取决 于 Agent 是 否 学 得 了 
访问 修理 站 的 知识 (Agent 并 不 总 是 学 习 这 些 知识 )。 因 而 这 个 例子 中 的 累积 奖赏 值 倾向 于 
具有 “ 双 峰 ”的 分 布 ， 见 习题 11. 8。 a 

图 中 有 3 个 重要 的 统计 量 : 

。 渐 近 斜率 说 明 算法 稳定 后 策略 的 优 劣 。 

。 曲线 的 最 小 点 表示 累积 奖赏 值 开 始 增 加 之 前 需要 牺牲 多 少 奖赏 。 

。 零 交 叉 点 表示 算法 需要 多 长 时 间 补 偿 学 习 的 代价 。 

当 同 时 存在 正 奖赏 和 负 奖 赏 的 时 候 ， 后 面 的 两 个 统计 量 是 很 有 用 的 ; 合理 的 行为 能 保 
持 正 奖赏 和 负 奖 赏 之 间 的 平衡 。 对 于 其 他 情形 ， 累 积 奖赏 值 应 该 与 适合 于 该 例子 的 合理 行 
为 进行 比较 ， 见 习题 11.7。 

关于 累积 奖赏 曲线 图 必须 注意 的 一 个 事实 是 ， 它 度量 总 的 奖赏 值 ; 然而 算法 在 每 一 步 
优化 的 是 折扣 奖赏 值 。 一 般 的 ， 应 该 优化 最 适合 于 特定 问题 的 优化 准则 以 及 利用 该 准则 评 
估算 法 的 优 劣 。 


11. 3.6 在 策略 学 习 


只 要 Agent 进行 了 足够 的 探索 ， 则 不 管 它 做 什么 ，Q- 学 习 算 法 总 是 学 习 一 个 最 优 的 策 
略 。 可 能 存在 这 样 的 情形 : 忽略 Agent 真正 做 什么 是 危险 的 (会 有 很 大 的 负 奖 赏 值 )。 一 种 
方法 是 学 习 Agent 即将 执行 的 策略 的 值 ， 以 便 能 迭代 地 提升 性 能 。 因 此 ， 学 习 器 能 够 考虑 
与 探索 相关 的 代价 。 

离 策 略 学 习 器 (off-policy learner) 学 习 controller SARSA(S, A, 7, a) 
独立 于 Agent 行为 的 最 优 策略 值 。Q- 学 习 就 | meen 
是 一 种 离 策 略 学 习 器 。 在 策略 学 习 器 (on- A 是 行为 的 集合 
policy learner) 学 习 Agent 即将 执行 的 策略 区 
的 值 ， 包 括 探索 的 步 数 。 Internal State: 

SARSA( 这 个 名 字源 于 它 运 用 “状态 - 行 || RMR OLS, A] 

为 -奖赏 -状态 -行为 "经验 来 更 新 Q 值 ) 是 一 前 一 行动 a 

个 在 策略 增强 学 习 算 法 ， 它 估计 即将 执行 的 “| Oa ina ors, A] 

策略 的 值 。SARSA 中 经 验 的 形式 为 (;，a， 观察 目前 的 状态 

r, s's, a’), MBE: Agent 在 状态 *， 执 行 人 

行为 a， 接 收 奖赏 +， 结束 于 状态 "， 并 由 BETHA ， 

此 决定 执行 行为 a'。 该 经 验 提供 了 一 个 用 以 pi tap ARETA 

更 新 Q(s，a) 的 新 值 ， 即 rtyQ6', a’). Q[sva] = Lsa] +alr + yQLs' a'] — Asa) 

图 11-13 给 出 了 SARSA 算法 。 et 

SARSA 考虑 了 目前 的 探索 策略 ， 该 策 
略 可 能 是 贪心 的 (关于 随机 步骤 ) 。 当 探索 可 
能 导致 比较 大 惩罚 的 时 候 ，SARSA 可 以 找 图 11-13 SARSA: 在 策略 增强 学 习 








第 11 章 有 监督 之 外 的 其 他 学 习 模 型 315 





到 一 个 与 Q- 学 习 不 同 的 策略 。 例 如 ， 当 一 个 机 器 人 怜 到 接近 楼 梯 顶 的 时 候 ， 虽 然 这 是 一 
个 最 优 的 策略 ， 此 时 进行 探索 可 能 是 危险 的 。SARSA 将 发 现 这 种 危险 ， 并 采用 使 机 器 人 
离开 楼 梯 的 策略 。 它 能 够 在 考虑 策略 内 在 探索 的 同时 找到 最 优 的 策略 。 

【 例 11-12〗 在 例 11-10 中 ， 最 优 的 策略 是 在 状态 s 执行 up 动作 (图 11-8)。 然 而 ， 
Agent 进行 探索 并 非 好 事 ， 因 为 从 状态 s; 开始 探索 是 非常 危险 的 。 

如 果 Agent 执行 包括 探索 的 策略 ,“ 在 状态 *， 以 80% 的 概率 选择 最 大 化 QLs，c] 的 动 
作 a， 以 20% 的 概率 随机 选择 一 个 动作 ”， 在 状态 so 执行 up 动作 并 非 是 最 优 的 。 在 策略 学 
_ 习 器 努力 优化 Agent 即将 执行 的 策略 ， 而 非 不 包含 探索 的 最 优 策 略 。 

假设 你 重 做 如 图 11-11 所 示 的 实验 ， 则 SARSA 将 备份 一 1 值 ， 而 Q- 学 习 则 不 会 ， 原 
因 是 存在 估计 值 是 0 的 行为 。 图 11-11a 和 图 11-11b 中 的 Q 值 将 收敛 于 相同 的 策略 值 。 

与 Q- 学 习 相 比 ，SARSA 中 的 最 优 策 略 值 更 小 。SARSA 中 的 对 应 于 图 11-11c 的 值 
如 下 : 


迭代 步 数 QLso, right] QLs:!, upC] QLs;, upC] QLss, left] QLls:, left] 
co 9.2 10. 1 12.7 15.7 18.0 


使 用 SARSA 算法 的 最 优 策略 是 在 状态 so 执行 动作 right。 这 就 是 Agent 以 20% 的 概 
率 进行 探索 得 到 的 最 优 策 略 ， 因 为 增加 探索 的 比例 是 危险 的 。 如 果 探 索 的 比例 下 降 ， 则 找 
到 的 最 优 策略 可 能 不 同 。 探 索 的 比例 越 小 ， 找 到 最 优 策略 所 花费 的 时 间 就 越 长 。 < 

当 目 标 是 优化 正在 探索 的 Agent 的 值 时 ，SARSA 算法 是 很 有 用 的 。 如 果 你 想 执行 离 
线 学 习 ， 并 利用 不 进行 探索 的 Agent 中 的 策略 ， 则 Q- 学 习 可 能 更 合适 。 


11.3.7 为 路 径 分 配 信用 和 责任 


在 QE Al SARSA 算法 中 ， 当 接收 到 一 个 奖赏 值 时 只 是 修改 前 一 个 “状态 -行为 ”对 
的 值 。 直 观 的 ，Agent 通过 执行 一 系列 的 算法 步骤 而 获得 的 奖赏 ， 应 该 和 所 有 的 步骤 都 是 
有 关系 的 ， 因 此 ， 对 于 该 奖赏 ， 每 个 步骤 均 应 分 配 相应 的 信用 和 责任 。 本 章 介绍 其 中 的 一 
个 分 配 算法 。 

【 例 11-13) 假定 存在 这 样 的 一 个 行为 “right”， 它 顺序 访问 状态 1. se. s Mss H 
仅 当 Agent 从 状态 ss 进入 状态 s 时 才 获 得 一 个 奖赏 ; 从 状态 ss 开始 的 任意 行为 均 返 回 状 
态 si。 同 时， 存在 行为 “left”"， 除 非 在 状态 s， 否 则 它 向 左 走 。 在 Q- 学 习 和 SARSA 中 ， 
RM TRA ss so ss 和 % ， 并 接收 到 奖赏 之 后 ， 只 有 QLss，rightj] 得 到 了 更 新 。 如 果 
再 次 访问 相同 的 状态 序列 ， 则 当 进 入 状态 ss 时 ，Q[Ls,。，righij 将 得 到 更 新 。Q[Ls,，righi] 
的 更 新 仅 发 生 在 下 次 从 状态 s 进入 s 的 时 候 。 从 这 个 意义 上 我 们 说 ，Q@- 学 习 只 做 了 一 步 
备份 。 

考虑 基于 因 进 入 状态 s 而 获得 奖赏 的 QLs;，right] 的 更 新 。 站 在 状态 s 的 角度 看 ， 
算法 做 了 一 步 备份 ; 而 站 在 状态 ss 的 角度 看 ， 算 法 做 了 超前 一 步 的 预测 。 为 了 使 算法 允许 
将 更 多 的 步 又 与 责任 进行 挂钩 ， 接 收 到 因 进 入 状态 ss 而 获得 的 奖赏 之 后 ， 可 以 进行 两 步 备 
份 以 更 新 sz Ks MAUL, WERE ss 的 角度 看 ,算法 做 了 超前 两 步 的 预测 以 更 新 ss 
的 值 。 下 面 的 算法 描述 基于 上 述 “ 超 前 ”的 概念 ， 但 利用 的 是 备份 的 实现 方法 。 < 

假定 Agent 在 状态 s 执行 行为 a, 后 进入 状态 sr 并 接收 到 奖赏 值 +;， 接 着 执行 行为 
ac 后 进入 状态 s.4: 并 接收 到 奖赏 值 7.+,， 在 时 间 t 超前 两 步 的 预测 返回 值 是 Ri?” 二 roti 十 
riz ty VS) 因而 TD 误差 为 : 
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Ò = re + Yra + YW Csu) — QLs, a, ] 

其 中 V (5,42) REFER AS Se 十 2 的 估计 值 。 两 步 更 新 如 下 : 

QLs: va, ] < QLs, sa] + að: 

不 幸 的 是 ， 这 并 非 是 最 优 Q 值 Q 的 一 个 好 的 估计 ， 因 为 行为 a.1i 可 能 不 是 最 优 的 。 
例如 ， 如 果 执 行 行为 as 使 得 Agent 进入 一 个 奖赏 值 是 一 10 的 位 置 并且 存在 更 好 的 行 
为 ， 则 Agent 不 会 更 新 QLx ，ao]j。 然 而 ， 多 步 备 份 提高 了 Agent 实际 遵循 的 策略 的 估计 
精度 。 如 果 Agent 遵循 的 策略 记 为 +， 则 备份 给 出 了 一 个 改进 的 估计 Q*。 因 此 ， 多 步 备份 
可 应 用 于 诸如 SARSA 的 在 策略 方法 。 

假定 Agent 在 状态 s 执行 行为 a, 后 接收 到 奖赏 值 r,;, 并 进入 状态 w+y， 接 着 执行 行为 
ait1 后 接收 到 奖赏 值 ry; 并 进入 状态 5.+;， 以 此 类 推 。 在 时 间 1 超前 n(n 宇 1) 步 的 预测 返回 
值 记 为 RY. m 

R® = ras H Yru + Y res bee by Ten H YV Spe) 
可 利用 该 式 和 TD 误差 Rr” 一 QLs,，a,j] 更 新 QLs,，a,]。 但 是， 确定 的 值 是 不 容易 的 。 除 
了 选择 一 个 特定 的 n 并 向 前 看 nn 步 ， 选 择 一 系列 nn 步 返 回 值 的 平均 值 是 可 能 的 。 一 种 方法 
是 取 所 有 nn 步 返回 值 的 加 权 平 均值 ， 其 中 未 来 的 返回 值 以 指数 级 衰减 (衰减 系数 为 *)。 这 
就 是 所 谓 的 SARSA(A) 方 法 的 直观 思想 。 当 接收 到 一 个 奖赏 ， 更 新 所 有 已 访问 状态 的 值 ; 
对 于 该 奖赏 ， 更 早 的 状态 接收 更 少 的 信用 或 责任 。 

A 


x 
Ri = a-a Jat Re 


其 中 (1 一 和 ) 是 一 个 归 一 化 常量 ， 用 以 确保 获得 一 个 平均 值 。 下 表 给 出 了 上 式 计算 结果 的 细 
节 信 息 : 
向 前 观察 的 步 数 返回 值 
ri HYV Csi) 
rr+-1 Hyrre HEVC) 
Feti FIr +7 reas HPV Css) 
Tr 二 Yrirs + rvs FY riera FY Vr) 














Tritt Yrs FF reps 十 … HIV Ceta) 


合并 ri+; 的 同类 项 ， 得 
RE = ran + VCS) — AY Vm) AY ree tt AV? VW Gaa) — A FV Ger) HAY roa HAYV Gas) 一 
RPV Seca) HA Y ree HAYV Seg) — At PV Csa) + oe 

一 种 SARSA 的 变形 方法 (该 方法 中 的 VCsi) 的 未 来 估计 值 是 Q[Ls 9 am: DH SHE 
上 式 的 计算 。TD 误差 ， 即 返回 值 减 去 状态 的 估计 值 是 : 

Ri — QLs sa] = mh 十 7Q[Ls sae ] — QLs: va, +H AY Cre + VOL Sete ee | — A Set veer D TAY (rs 

+ QD sera sans ]— Seve sarna D FAY Crag + YQLse ar 一 QLsaayars]) 十 … 

不 是 等 到 计算 结束 (可 能 永远 也 不 会 发 生 ) ，SARSA(A) 在 未 来 的 每 个 时 间 里 都 更 新 QLs a] 
的 值 。 当 接收 到 奖赏 ro Agent 可 以 利用 前 述 公 式 中 的 合适 的 项 的 和 更 新 QLs,，a,]。 由 于 
在 所 有 的 时 间 里 都 要 进行 更 新 操作 ， PLA rvs 十 YQLs.+2 , arz ]— QLs+z , art?] 可 用 于 更 新 所 
有 的 先前 状态 。Agent 可 以 通过 维护 一 个 “资格 迹 ”(eligibili tytrace) 来 实现 这 一 点 ， 其 中 的 资 
格 迹 规定 在 每 一 个 时 间 步 中 对 于 一 个 “状态 -行为 ”对 应 该 更 新 的 量 是 多 少 。 当 一 个 “状态 - 行 


第 11 章 有 监督 之 外 的 其 他 学 习 柑 型 317 


为 "对 首先 被 访问 ， 则 它 的 资格 设置 为 1。 在 随后 的 每 个 时 间 步 里 ， 它 的 资格 是 不 断 减 少 的 ， 


减少 系数 为 Mr。 如 果 该 “状态 -行为 "对 被 再 次 访问 ， 
则 其 资格 加 1。 

用 一 个 数组 eLS，A] 来 表示 资格 迹 ， 其 中 S 和 有 AA 
分 别 是 所 有 状态 的 集合 和 所 有 行为 的 集合 。 在 执行 每 
一 个 行为 之 后 ， 更 新 每 个 “状态 -行为 ”对 的 Q@ 值 。 

SARSA Q) JA IMA 11-14。 

虽然 该 算法 规定 对 于 每 一 个 状态 s 和 行为 a， 每 
当 接 收 到 一 个 新 的 奖赏 就 更 新 QLs，a]， 但 仅仅 更 
新 那些 资格 大 于 某 个 阀 值 的 不 仅 更 高 效 ， 而 且 准 确 
率 的 损失 也 很 小 。 


11.3.8 基于 模型 的 方法 


在 许多 增强 学 习 的 应 用 中 ， 每 两 个 行为 之 间 存 
在 大 量 的 空闲 计算 时 间 。 例 如 ， 一 个 物理 机 器 人 在 
每 两 个 行为 之 间 可 能 有 许多 秒 的 时 间 空 闲 。Q- 学 习 
在 每 个 行为 中 仅 执行 一 次 备份 操作 ， 没 有 充分 利用 
空闲 的 计算 时 间 。 

学 习 Q 值 的 一 种 可 选择 的 方法 是 利用 数据 学 习 
一 个 模型 ， 即 Agent 利用 它 的 经 验 显 式 地 学 习 
P(s'|s,，a) 和 RC(s，a，s')。 对 于 环境 中 执行 的 每 一 
个 动作 ，Agent 可 以 异步 执行 多 步 的 值 迭 代 操 作 ， 
以 给 出 一 个 更 优 的 Q 函数 估计 。 

图 11-15 显示 了 一 个 一 般 的 基于 模型 的 增强 学 习 
器 。 与 其 他 的 增强 学 习 程 序 一 样 ， 它 记录 QLS, Al; 








controller SARSA, S, A, Y, a) 


Internal State: 
实 值 数组 QLS，4] 
实 值 数组 eLS，A] 


随机 初始 化 QLS，4] 
对 于 所 有 的 s a, Meet els, a]=0 
观察 目前 的 状态 s 
利用 一 个 基于 Q 的 策略 选择 a 
repeat forever ; 
执行 行为 a 
观察 奖赏 r 和 状态 了 
利用 一 个 基于 Q 的 策略 选择 a 
$<r++7Q[s', a’ J—Q[s, a] 
e[s, al<e[s, a]+1 
fall all s”, a” 
QL”, a”]<+OQ[s", a”]+ade[s", a”) 
els’, a" \=yae[s", a"] 
sos! 
axa’ 


end-repeat 


end 


图 11-14 SARSA(,) 








但 它 也 维护 一 个 “活力 ”模型 ， 记 为 T:; TEs, a s 表示 Agent 在 状态 s 执行 行为 a 并 结束 于 状 
AS s 的 次 数 。 和 Dirichlet 分 布 一 样 ， 用 该 计数 与 先 验 计数 的 和 计算 概率 。 这 个 算法 假定 一 个 通 
用 的 先 验 概率 。 数 组 RLs，a，s EPERE s 执行 行为 a 并 结束 于 状态 * 时 接收 的 奖赏 。 

在 执行 完 每 一 个 动作 之 后 ，Agent 观察 奖赏 ~ 和 结果 状态 ; ; 接着 更 新 转移 -计数 矩阵 
T 和 平均 奖赏 值 尺 ;然后 利用 从 T 推 导 而 来 的 更 新 概率 模型 和 更 新 奖赏 模型 异步 执行 多 步 


HERRE. BRATE 3 个 未 定义 的 问题 : 


。 应 该 更 新 哪个 Q 值 ? 直观 地 ， 算 法 应 该 至 少 更 新 QLs，aj]， 因 为 接收 到 了 更 多 的 
基于 转移 概率 和 奖赏 的 数据 。 基 于 此 ， 它 可 以 进行 随机 更 新 ， 也 可 以 确定 哪个 Q 
值 将 改变 最 多 。 值 改变 最 多 的 潜在 元 素 是 这 样 的 QLs!，a1」]， 它 最 有 可 能 在 某 个 已 
经 改变 最 多 的 Q 值 (如 QLs;，az] 已 经 改变 最 多 ) 处 终止 。 这 可 以 通过 维护 一 个 所 


考虑 的 Q 值 的 优先 队列 来 加 以 实现 。 


。 在 两 个 行为 之 间 应 该 执行 多 少 步 异 步 值 迭代 操作 ? Agent 应 该 持续 地 进行 异步 值 
迭代 操作 ， 直 到 必须 做 出 决策 或 获得 新 的 信息 。 图 11-15 假定 Agent 执行 某 动作 
之 后 等 待 一 个 新 观察 的 到 来 。 当 来 了 一 个 新 观察 ，Agent 就 尽快 地 执行 动作 。 存 
在 该 算法 的 一 些 变形 ， 例 如 Agent 在 观察 和 行动 的 同时 执行 循环 。 这样 的 Agent, 
在 它 需 要 的 时 候 执 行动 作 ; 当 它 观察 到 新 信息 的 时 候 更 新 转移 和 奖赏 模型 。 
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controller ModelBasedReinforementLearner(S, A, y, c) 
Inputs; 
S 是 状态 的 集合 
A 是 行为 的 集合 
7 是 折扣 率 
< 是 先 验 计数 
Internal State; 
实 值 数组 QLS，4] 
XAH RIS, A, S] 
整数 数组 TLS, A, S] 
RÆ s,s! 
行为 a 
随机 初始 化 QLS，A] 
随机 初始 化 RCS, A, S] 
初始 化 TLS, A, S]=0 
观察 目前 的 状态 s 
选择 并 执行 行为 a 
repeat forever: 
观察 奖赏 > 和 状态 s" 
选择 并 执行 行为 a 
T[s, a, s']=T[s, a, s']+1 
RLs, as s'JeR[s, ay s+ TGR ae sd 
ses’ 
repeat 
选择 状态 s 并 执行 行为 al 
令 P= D Tssa] +0) 
2 


QLsi sai] < > Maalte, sai 552] + ymaxQ[se+a2 ]) 
49 a2 


until 获得 了 一 个 新 观察 





11-15 基于 模型 的 增强 学 习 器 


。 怎样 设 定 RLS，A，S] 和 QLS，Aj 的 初 值 ? — E Agent 观察 到 一 个 特定 转移 
Cs, a, ss ) 的 奖赏 值 ， 它 就 使 用 针对 该 转移 所 接收 到 的 奖赏 的 平均 值 。 然 而 ， 对 于 
转移 ， 当 更 新 Q 的 时 候 ，Agent 需要 一 些 从 未 出 现 过 的 值 。 在 面 对 不 确定 性 的 时 
候 ， 如 果 采 用 “探索 ”的 优化 策略 ， 则 Agent 可 以 使 用 尽 可 能 大 的 奖赏 值 ( 记 为 
Rmax) 作 为 R HIRE, MERRER. MEERE., H Q 初始 化 为 与 最 终 的 
Q 值 越 近 越 好 。 

图 11-15 的 算法 假定 所 有 转移 (*，a，s ) 的 先 验 计数 是 相同 的 。 如 果 先 验 知识 表明 一 
些 转 移 是 不 可 能 的 ， 抑 或 是 更 可 能 的 ， 则 先 验 计数 应 该 是 不 一 样 的 。 

该 算法 也 假定 奖赏 值 依赖 于 初始 状态 、 行 为 和 最 终 状 态 。 而 且 假定 只 有 在 已 经 观察 到 
转移 真正 发 生 的 时 候 ， 才 知道 一 个 转移 (s，a，s ) 的 奖赏 值 。 如 果 奖 赏 值 只 依赖 于 初始 状 
态 和 行为 ， 则 求 取 RLS，Aj] 的 效率 更 高 。 如 果 分 别 存 在 行为 的 开销 和 进入 一 个 状态 的 奖 
赏 值 ， 且 Agent 能 够 单独 地 观察 这 种 开销 和 奖赏 ， 则 可 以 将 奖赏 函数 分 解 为 CLA] 和 
RLS]， 从 而 获得 更 高 的 学 习 效率 。 

比较 基于 模型 和 不 依赖 于 模型 的 增强 学 习 器 是 困难 的 。 通 常 ， 从 需要 的 经 验方 面 看 ， 
基于 模型 的 学 习 器 更 为 高 效 (需要 的 经 验 更 少 ) 。 然 而 ， 不 依赖 于 模型 的 学 习 器 所 需 的 计算 
时 间 更 少 。 应 该 依据 获得 经 验 的 难 易 程 度 分 别 进 行 比较 。 
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11.3.9 基于 特征 的 增强 学 习 


通常 进行 显 式 推理 的 状态 是 非常 多 的 。 与 依据 状态 进行 显 式 推理 不 同 的 选择 是 依据 特 
征 进行 显 式 推理 。 本 节 讨 论 基于 Q 函数 的 台 近 的 增强 学 习 ， 这 种 逼近 利用 了 状态 和 行为 特 
征 的 线性 组 合 。 这 种 情形 是 最 简单 的 ， 并 上 且 工 作 良 好 。 然 而 ， 这 种 方法 需要 进行 谨慎 的 特 
征 选择 ; 设计 者 需要 找 出 合适 的 特征 以 表示 Q 函数 。 这 通常 是 一 个 困难 的 工程 问题 。 
基于 线性 函数 逼近 的 SARSA 算法 
可 以 在 SARSA 中 用 特征 的 线性 函数 逼近 Q 函数 。 该 算法 利用 “在 策略 ”方法 SARSA 
的 原因 是 ，Agent 从 真正 遵循 的 策略 中 进行 奖赏 的 采样 (而 非 从 最 优 的 策略 进行 采样 ) 。 
存在 许多 获取 Q 函数 的 基于 特征 的 表示 方法 。 本 节 利 用 状态 和 行为 两 方面 的 特征 构建 
线性 函数 。 
假定 Fi, +, F, 是 状态 和 行为 的 数值 特征 ，F;(s，a) 是 状态 * 和 行为 a 的 第 i 个 特征 
的 值 。 这 些 特征 通常 是 二 元 的 ( 值 域 为 {0，1})， 但 也 可 以 取 其 他 值 。 它 们 将 被 用 于 表示 Q 
函数 : 
Qilsya) = w + w F (ssa) 二 w FE,(s,a) 
其 中 ， 古 二 《wo，wi，…，w,) 是 权 值 数组 。 假 定 存 在 一 个 额外 的 、 取 值 总 为 1 的 特征 Fo, 
则 与 其 他 权 值 相 比 ，w 不 再 是 一 种 特殊 情况 。 
【 例 11-14) 在 例 11-8 所 示 的 网 格 游戏 中 ， 一些 可 能 的 特征 如 下 : 
。 如 果 行 为 a 最 大 可 能 地 使 Agent 从 状态 s 移 向 怪物 将 出 现 的 地 方 ， 则 FCs, a)= 
1; 否则 Fis, a)=0. 
。 如 果 行为 a 最 大 可 能 地 使 Agent 撞 到 墙壁 ， 则 FCs, a)=1; 否则 FCs, a)=0. 
。 如 果 行 为 a 最 大 可 能 地 使 Agent 朝 有 奖赏 的 地 方 移动 ， 则 FCs, a)=1. 
。 如 果 Agent 在 状态 s 被 损坏 ， 且 行为 a 将 它 移 向 修理 站 ， 则 F,(s，a) 二 1。 
。 如 果 Agent 被 损坏 ， 且 行为 a 最 大 可 能 地 将 它 移 向 怪物 将 出 现 的 地 方 ，Fs (s，a) 二 1; 
否则 F;(s, a)=0. BI Fs (s， as F Gs aq) 完全 一 样 ， 但 前 者 仅 在 Agent 被 损坏 的 情形 
下 适用 。 
。 如 果 Agent 在 状态 s 被 损坏 ， 则 Fu(s，a) 王 1; 否则 FCs, a)=0. 
。 如 果 Agent 在 状态 s 未 被 损坏 ， 则 FCs, D=1; 否则 FCs, a)=0, 
。 如 果 Agent 被 损坏 ， 且 行为 a 的 前 方 存在 奖赏 ， 则 Fes(s，a) 一 1。 
。 WR Agent 未 被 损坏 ， 且 行为 a 的 前 方 存在 奖赏 ， 则 Fe(s，a) 一 1。 
。 如 果 在 状态 s 的 P。 位 置 中 存在 一 个 奖赏 ， 则 Fio(s，a) 取 状态 * 中 的 z MAE 
侧 墙壁 到 存在 奖赏 的 位 置 Po 之 间 的 距离 。 
。 如 果 在 状态 * 的 P。 位 置 中 存在 一 个 奖赏 ， 则 Fia(s，a) 取 4 一 z， 其 中 工 是 从 左 侧 
墙壁 到 存在 奖赏 的 位 置 Po 之 间 的 水 平 距离 。4 一 工 即 是 从 右 侧 墙壁 到 存在 奖赏 的 
ME Po 之 间 的 距离 。 
© Fis(s，Q) 到 Foals, OG Fo 和 Fi 类似， 不同 的 地 方 在 于 存在 奖赏 的 位 置 和 四 个 
方向 至 墙壁 的 距离 的 不 同 组 合 。 对 于 奖赏 在 位 置 Po 的 情形 ， 应 该 考虑 与 墙壁 在 y 
方向 上 的 距离 。 
一 个 示例 性 的 线性 函数 是 
Q(s,a) = 2.0—1.0* F,(s,a)—0.4 * Fa(s,a)—1.3#*Fs(ssa)—0.5#*F (sa)—1.2#¥F:(sa)—1.6*F(s, 
a) + 3.5%» F,(s,a) +0. 6 * Fy(s,a) +0. 6 * Fy (ssa) — 0.0 * Fio (sya) + 1.0% Fy (ssa) + + 
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这 些 学 


得 的 权 值 (保留 一 一 位 小 数 ) 就 是 下 述 算法 的 一 一 次 运行 所 得 到 的 结果 < 
SARSA 中 经 验 的 形式 为 (s，a，r，s'，a')(Agent 在 状态 


5 执行 了 行为 a， 获 得 奖赏 7 


和 到 达 状 态 * ， 然 后 决定 执行 行为 a')， 它 提供 新 的 估计 值 7 十 rQ(s'， a ) 以 更 新 AG, a). 
该 经 验 可 以 用 作 线 性 回归 (linear regression) 的 一 个 数据 点 。 令 6 二 r 十 YQ(s',， als, a), 


并 利用 式 (7. 2) ， 则 权 值 w 的 更 新 公式 如 下 : 

w; < w; + OF Csa) 

将 该 公式 包含 进 SARSA， 得 到 了 如 图 11-16 所 示 
的 算法 。 

可 以 利用 一 个 e- 贪 心 函数 来 选择 行为 a: 
Agent 以 概率 = 选择 一 个 随机 的 行为 ， 否 则 选 
择 最 大 化 Qs(s，a) 的 行为 。 

虽然 该 算法 易于 实现 ， 但 特征 工程 (fea- 
ture engineering)( 即 选择 哪些 特征 ) 并 非 易 事 。 
线性 函数 必须 不 仅 要 表达 执行 的 最 优 行为 ， 还 
要 表达 什么 特征 状态 是 有 用 的 信息 。 

存在 该 算法 的 许多 变形 。 可 以 应 用 不 同 的 
函数 逼近 ， 例 如 神经 网 络 或 在 叶 节 点 是 线性 琐 
数 的 决策 树 。 一 种 常见 的 变形 是 对 每 一 个 行为 
都 构造 一 个 单独 的 函数 ， 这 等 价 于 用 这 样 的 一 
RRA BI Q 函数 : 它 在 行为 上 进行 分 裂 ， 
然后 构造 线性 函数 。 除 此 之 外 ， 也 可 以 在 其 他 
特征 上 作 分 裂 。 


可 以 将 线性 函数 逼近 与 其 他 方法 (例如 SARSA), 

















1; controller SARSA—FA(F, y, 办 
2; Inputs; 

3: FH=(F,, ，…，F)， 特 征 的 集合 

4, velo, 1]: 折扣 因子 

5:0: 梯度 下 降 的 步 长 

6: Local 

7: 随机 初始 化 权 值 可 = (wr. Wis ts Wa) 
8: ”观察 到 目前 的 状态 s 

9: 选择 行为 a 

10; repeat 

11: 执行 行为 a 

12: 观察 到 奖赏 r 和 状态 5" 

13: 利用 一 个 基于 Qs 的 策略 选择 a 

14; 4 d=r+yQz(s', a ) 一 Qs(s, a) 

15: for ;一 0 to n do 

16; ww, + OF Cs, a) 

ss 





' 
ama 


19; until 结束 





11-16 基于 线性 函数 逼近 的 SARSA 算法 


Q- 学 习 或 者 基于 模型 的 方法 ) 组 合 


在 一 起 。 注 意 ， 其 中 的 一 些 方法 具有 不 同 的 收敛 保证 和 不 同 的 性 能 水 平 。 


【 例 11-15】 
特征 如 例 11-14 所 示 。 


Alspace 网 站 上 有 该 算法 关于 例 11-8 所 示 游 戏 的 一 个 开源 实现 ， 使 用 的 
尝试 单 步 执 行 该 程序 ， 尽 力 理解 每 一 步 是 如 何 更 新 参数 的 ; Ras 


察 多 步 执行 的 情况 。 考 虑 利用 11. 3. 5 节 所 讨论 的 评估 准则 度量 学 习 的 性 能 。 设 法 搞 清楚 


所 学 参数 值 的 含义 。 
11.4 本章 小 结 


< 


。 期 望 最 大 化 是 一 种 学 习 带 有 隐藏 变量 (包括 类 别 为 隐藏 变量 的 情形 ) 的 模型 的 迭代 方法 。 
。 可 以 从 完全 数据 中 学 习 信念 网 络 的 概率 与 结构 。 概 率 可 由 计数 导出 ; 结构 可 通过 在 给 定数 据 的 条 


件 下 搜索 最 优 的 模型 而 学 得 。 


样本 中 的 缺失 值 通常 并 非 是 随机 缺失 的 。 研 究 这 些 值 缺 失 的 原因 通常 是 重要 的 。 


。 马尔 可 夫 决 策 过 程 是 增强 学 习 的 一 种 合适 的 形式 化 表达 。 正 如 函数 Q(S，A) 所 表达 的 那样 ， 通 
常 的 做 法 是 学 习 在 某 个 状态 执行 每 个 动作 的 估计 值 。 


在 增强 学 习 中 ，Agent 应 该 在 利用 已 有 的 知识 和 探索 新 知识 之 间 进 行 折衷。 


。 离 策 略 学 习 ( 例 如 Q- 学 习 ) 方 法 学 习 最 优 策略 的 值 。 在 策略 学 习 ( 例 如 SARSA) 方 法 学 习 Agent 真 


正 执行 的 策略 (包括 探索 ) 的 值 。 


论 规划 。 


基于 模型 的 增强 学 习 区 别 学 习 状 态 转换 与 奖赏 模型 ， 它 源 于 在 给 定 模型 的 条 件 下 做 什么 的 决策 理 
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11.5 参考 文献 及 进一步 阅读 


FischerL1987] 以 及 Cheeseman, Kelly, Self, Stutz, Taylor 和 Freeman[1988] 介 绍 了 无 监督 学 习 。 
Duda 等 [2001] 以 及 Langley, Iba 和 Thompson[ 1992] 讨 论 了 贝 叶 斯 分 类 器 。Friedman 和 Goldszmidt 
[L1996aj] 讨 论 了 如 何 推 广 朴 素 贝 叶 斯 分 类 器 ， 使 其 允许 更 多 的 适当 的 独立 性 假设 。 

信念 网 络 的 综述 见 Heckerman[ 1999], Darwiche[ 2009], Koller 和 Friedman[ 2009]。 利 用 决策 树 进 
行 结构 学 习 见 Friedman 和 Goldszmidt[1996b]. 

增强 学 习 的 介绍 见 Sutton 和 Barto[ 1998] 以 及 Kaelbling、Littman 和 Moore[1996], Bertsekas 和 
Tsitsiklis[1996] 研 究 了 函数 逼近 及 其 与 增强 学 习 的 关系 。 


11.6 习题 


11.1 考虑 如 图 11-1 所 示 的 无 监督 数据 : 

(a) 4 k=2 时 ，k- 均 值 算法 能 找 出 多 少 种 稳定 的 将 样本 指派 给 类 的 方法 ?〈 提 示 : 尝试 在 一 些 不 同 
的 初始 点 运行 算法 ， 同 时 考虑 什么 样 的 样本 指派 是 稳定 的 。) 不 要 将 类 标签 的 排列 视 为 不 同 的 
指派 。 

(b) 4R=3 时 ，k- 均 值 算法 能 找 出 多 少 种 稳定 的 将 样本 指派 给 类 的 方法 ? 

(c) 4R=4 时 ，k- 均 值 算法 能 找 出 多 少 种 稳定 的 将 样本 指派 给 类 的 方法 ? 

(d) 为 什么 有 人 建议 在 这 个 例子 中 自然 的 类 别 个 数 为 37? 给 出 “自然 ”的 类 别 个 数 的 定义 ， 并 利用 这 
些 数据 验证 该 定义 。 

11.2 假定 对 于 不 断 增 大 的 序列 值 k 运 行 & 均值 算法 ， 且 对 于 每 一 个 k， 算 法 都 运行 多 次 以 搜寻 具有 全 局 
最 小 误差 的 样本 指派 。 是 否 可 能 存在 这 种 情况 : 对 于 一 些 & 而 言 ， 误 差 是 稳定 的 ; 而 后 性 能 却 大 
幅 提 升 ( 即 当 & 二 3、4、5 的 时 候 ， 误 差 几 乎 相同 ， 而 当 ==6 的 时 候 ， 误 差 则 小 得 多 )? 如 果 可 能 ， 
给 出 一 个 例子 ; 否则 解释 原因 。 

11.3 给 出 一 个 无 监督 学 习 的 期 望 最 大 化 算法 (图 11-4) ， 它 不 存储 数组 A， 而 是 为 M 步 重复 计算 合适 的 
值 。 每 一 次 迭代 只 需 扫 描 一 裔 数据 集 。( 提 示 : 对 于 数据 集中 的 每 一 个 元 组 ， 更 新 所 有 相关 的 
M; 值 .) 

11.4 假定 一 个 进行 Q@- 学 习 的 Agent， 具 有 固定 的 步 长 a 和 折扣 率 yY， 处 于 状态 34、 执 行动 作 7、 接 收 奖 
赏 值 3 和 结束 于 状态 65。 请 问 更 新 的 值 是 多 少 ? 给 出 其 表达 式 。( 越 具体 越 好 。) 

11.5 在 增强 学 习 中 ， 如 果 Agent 总 是 选择 最 大 化 Q 值 的 行为 ， 则 会 发 生 什么 情况 ? 给 出 两 种 促使 
Agent 进 行 探索 的 方法 。 

11.6 假定 进行 Q- 学 习 的 Agent 具有 折扣 率 y 和 步 长 k， 且 正在 执行 一 个 e 贪 心 探索 策略 。 说 明 Q- 学习 
与 2.2.1 节 的 Agent 体系 结构 的 一 致 性 如 何 。 

(a) Q 学习 Agent 的 信念 状态 由 哪 几 部 分 构成 ? 

(b) 知觉 是 什么 ? 

(c) Q- 学 习 Agent 的 功能 函数 是 什么 ? 

(d) QZJ Agent 的 信念 状态 转移 函数 是 什么 ? 

11.7 对 于 如 图 11-12 所 示 的 随时 间 变 化 而 变化 的 累积 奖赏 值 曲 线 图 ， 仅 当 平衡 正 负 奖赏 值 是 合理 行为 
的 时 候 ， 最 小 和 零 交叉 点 才 是 有 意义 的 统计 值 。 当 零点 并 非 是 合理 行为 的 恰当 定义 的 时 候 ， 应 该 
用 什么 值 替换 这 些 统计 值 ? (提示 : 考虑 仅 存在 正 奖 赏 或 负 奖 赏 的 情形 。) 

11.8 对 于 例 11-8 所 示 的 游戏 ， 比 较 不 同 参数 设置 的 结果 。 特 别 地 ， 考 虑 下 述 情 形 : 

(a) a 变化， QQ@ 值 初始 化 为 0. 0。 
(b) a 变化 ，Q 值 初 始 化 为 5. 0。 
(c) a 取 0.1， QQ@ 值 初始 化 为 0. 0。 

(d) a 取 0.1，Q@ 值 初始 化 为 5. 0。 
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Ce) 其 他 设置 。 
对 于 每 一 种 情形 ， 多 次 运行 程序 ， 比 较 下 列 值 的 分 布 : 最 小 值 、 零 交叉 点 、 含 有 探索 的 策略 
的 其 近 斜率 和 不 含有 探索 的 策略 的 渐 近 斜率 。 对 于 最 后 一 个 任务 ， 在 算法 收 和 伍 之 后 ， 将 探索 参数 
设 为 100% ， 再 多 次 运行 额外 的 步骤 。 
在 Q 学 习 中 ,考虑 4 种 不 同 的 步 长 a 取 值 (注意 ， 在 采用 变化 的 w 的 Q- 学 习 中 ， 每 一 个 “状态 - 行 
为 ”对 必须 有 不 同 的 上 值 ): 
G) a =1/k, 
(iD a =10/(9+R), 
GID a =0. 1, 
Civ) 在 最 开始 的 10 000 步 中 , 4a, =0.1; 接 下 来 的 10000 步 中 , $a =0.01; 再 搂 下 来 的 10 000 
步 中 , 令 a 二 0.001， 依 此 类 推 。 
回答 下 列 问题 : 
(a) 理论 上 ， 上 述 哪 些 情 形 将 收敛 到 真实 的 Q@ 值 ? 
Cb) 实际 运行 ( 即 运行 合理 的 迭代 步 数 之 后 ) 的 结果 表明 哪些 情形 收 和 敛 到 真实 的 Q 值 ? 再 试 试 其 他 
领域 的 问题 ， 看 看 结果 怎样 。 
(c) 当 缓 慢 改 变 运 行 环 境 的 时 候 ， 结 果 将 如 何 ? 
假定 你 的 朋友 给 你 这 样 的 一 个 例子 : 其 中 SARSA(CA) 看 似 给 出 了 不 符合 直觉 的 结果 。 在 该 例子 
中 ， 存 在 两 个 状态 A 和 B; 除了 进入 状态 A 有 一 个 奖赏 值 10 外 ， 没 有 其 他 的 奖赏 或 惩罚 : 有 两 
种 行为 left 和 right， 它 们 仅 在 状态 BARB. ERA B 执行 left 直接 进入 状态 A， 但 执行 right 
后 进入 状态 A 的 概率 很 小 。 具 体 的 : 
* P(A|B, left)=1; 奖赏 值 是 10。 
。 PC(A|B, right)=0.01; 奖赏 值 是 10。P(B|B，righz) 一 0.99; 奖赏 值 是 0。 
»* PCA|A, left)=PC(A|A, right)=0.999, P(B|A, left)=PC(B|A, right)=0.001. KR 
明 进 入 状态 B 的 “ 资 烙 迹 ”将 与 零 充 分 接近 。 
。 yA 均 取 0.9, a 取 0.4。 
假定 你 的 朋友 声称 在 该 例子 中 QC) 并 不 起 作用 ， 原 因 是 在 状态 B 执行 动作 right 的 “资格 迹 ” 
比 执行 动作 left 的 大 (奖赏 和 所 有 参数 均 取 相同 的 值 );。 具 体 地 ， 执 行动 作 right 进入 状态 A 的 
“资格 迹 ? 大 约 为 5， 但 执行 动作 lieft 却 为 1。 因 此 ， 最 好 的 行为 是 在 状态 B 执行 动作 right， 这 是 
不 对 的 。 
你 的 朋友 错 在 哪里 ? 这 个 例子 说 明了 什么 ? 
在 基于 线性 函数 逼近 的 SARSA 算法 中 ， 如 果 运 用 线性 回归 最 小 化 7 十 YQa Cs, a) Ql, a), 将 
得 到 与 先前 不 同 的 结果 。 说 明 得 到 的 结果 是 什么 和 在 正文 中 描述 的 结果 是 否 更 可 取 。 
在 例 11-14 中 ,一些 特 征 是 完全 相关 的 (例如 Fs 和 Fi)。 这 些 相 关 的 特征 是 否 会 影响 表达 的 功能 ? 
是 否 会 影响 学 习 的 效率 7 
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这 是 一 个 具有 物理 结构 的 现实 世界 。 通 过 与 这 个 世界 的 巨 量 交互 ， 思 维 的 程序 已 经 得 
到 了 训练 ， 因 此 该 程序 包含 着 反映 了 该 世界 的 结构 的 代码 ， 并 知道 如 何 利 用 这 些 代码 。 这 
些 代 码 包含 了 该 世界 中 物理 对 象 的 表示 ， 并 表达 了 物理 对 象 间 的 交互 。 这 些 代 码 多 为 模块 
化 的 ……. 包含 了 处 理 不 同类 型 对 象 的 模块 及 概括 了 许多 类 型 的 对 象 的 模块 …… 模 块 间 以 对 
现实 世界 做 镜像 的 方式 和 对 世界 的 演化 做 出 准确 预测 的 方式 进行 交互 …… 

你 利用 该 世界 的 结构 来 做 出 决策 、 执 行动 作 。 你 在 哪里 画 出 类 别 的 分 界线 一 类别 由 
单一 的 对 象 或 单一 的 对 象 类 组 成 一 一 由 你 的 思维 程序 来 决定 ， 即 你 的 思维 程序 做 了 这 个 分 
类 工作 。 这 个 分 类 不 是 随机 的 ， 而 是 反映 了 世界 的 一 个 简洁 描述 ， 特 别 地 ， 是 一 个 有 益 于 
利用 该 世界 的 结构 的 描述 。 





Eric B. Baum[ 2004, 169~170 页 ] 


本 章 讨论 的 是 如 何 表 示 个 体 ( 事 物 和 对 象 ) 及 它们 之 间 的 关系 。 正 如 上 面 引 言 中 Baum 
建议 的 那样 ， 现 实 世 界 包 含 了 对 象 ， 而 我 们 想 要 的 是 这 些 对 象 的 简洁 表示 。 这 样 的 表示 可 
以 比 仅 使 用 特征 的 表示 方式 更 为 简洁 。 本 章 考虑 了 逻辑 表示 ， 并 给 出 了 一 个 详细 的 例子 以 
说 明 上 述 表 示 如 何 用 做 数据 库 的 没有 不 确定 性 的 自然 语言 接口 。 后 面 的 章节 介绍 本 体 及 符 
号 的 意义 、 关 系 学 习 和 概率 关系 模型 的 意义 。 


12. 1 在 特征 之 外 利用 结构 


人 工 智 能 的 主要 经 验 之 一 就 是 成 功 的 Agent 利用 了 世界 的 结构 。 前 面 的 几 章 考虑 了 使 
用 特征 表示 的 状态 。 较 之 明确 地 表示 状态 ， 使 用 特征 来 表示 状态 更 为 简洁 ， 并 且 算法 能 够 
使 用 这 种 简洁 性 。 不 过 ， 在 这 些 特征 中 通常 有 更 多 的 结构 ， 这 些 结构 可 用 于 表示 和 推理 。 
特别 地 ， 本 章 考 虑 了 如 下 方面 的 推理 过 程 : 
。 个 体 (individual) : 问题 域 中 的 事物 ， 它 们 可 以 是 有 形 的 个 体 ， 如 人 和 建筑 物 ; 虚 
构 的 个 体 ， 如 独 角 兽 和 仙女 ; 或 是 抽象 的 概念 ， 如 课程 和 时 间 。 
。 关系 (relation) : 关于 这 些 个 体 什么 为 真 。 这 意味 着 尽 可 能 地 通用 ， 包 含 了 单一 个 
体 的 为 真 或 为 假 的 一 元 关系 ， 也 包括 多 个 个 体 间 的 关系 。 
【 例 12-1] 在 例 5-5 中 ， 命 题 up_s.. up_s; 和 ok_ss 没有 内 部 结构 。 这 里 没有 关于 命 
题 up_s. 和 up_s, 描述 的 是 同一 个 关系 的 概念 ， 不 过 说 明了 上 述 关系 联系 的 是 不 同 的 个 
体 ; 也 没有 说 明 up_s. 和 o&_ss 指 的 是 同一 个 开关 。 这 里 没有 个 体 与 关系 的 概念 。 
一 个 替代 的 方法 是 明确 地 表示 各 个 开关 个 体 s 、s: 、ss 和 属性 (或 关系 )up Mok, W 
用 这 个 表示 方法 ,“ 开 关 s 是 闭合 的 "表示 为 p(s;)。 知 道 了 up As: 的 表示 后 ， 我 们 不 需 
要 一 个 单独 的 up(si) 的 定义 。 可 以 用 一 个 二 元 关系 ， 如 connected_to， 来 联系 两 个 个 体 ， 
如 connected_to(w,, 51)。 | 
有 多 个 理由 来 说 明 为 什么 应 使 用 个 体 和 关系 而 不 是 仅 使 用 特征 : 
。 它 通常 是 自然 的 表示 。 特 征 通常 是 个 体 的 属性 ， 而 这 个 内 部 结构 在 转换 到 特征 时 


第 12 章 ”个 人 与 关系 325 


MEAT. 

Agent 可 能 不 得 不 在 不 知道 有 哪些 个 体 或 者 有 多 少 个 体 的 情况 下 在 领域 中 建 模 ， 
因此 ， 也 无 从 知道 有 哪些 特征 。 在 运行 期 间 ，Agent 在 发 现 特定 环境 中 的 个 体 时 
能 够 构建 其 特征 。 

Agent 能 够 做 一 些 推理 ， 而 不 必 关 心 特定 的 个 体 。 例 如 ， 它 可 以 获得 一 些 对 于 所 
有 个 体 都 适用 的 东西 ， 而 不 需 知 道 个 体 的 具体 情况 。 或 者 ，Agent 有 可 能 断定 存 
在 一 些 有 特定 属性 的 个 体 ， 而 不 必 关 心 其 他 的 个 体 。 也 可 能 有 一 些 询问 ，Agent 
能 够 回答 这 些 询 问 而 不 必要 区 分 每 一 个 体 。 

个 体 的 存在 可 以 依赖 于 动作 ， 也 可 以 是 不 确定 的 。 例 如 ， 在 制造 业 中 的 规划 中 ， 
是 否 有 一 个 工作 组 件 可 能 依赖 于 许多 其 他 的 子 工作 组 件 且 这 些 组 件 装配 正确 ; 这 
些 组 件 中 的 一 部 分 可 能 依赖 于 Agent 的 动作 ， 而 另 一 些 可 能 不 在 Agent 的 控制 之 
下 。 因 此 ，Agent 可 能 不 得 不 在 缺少 对 特征 的 了 解 或 不 知道 会 有 哪些 特征 的 情况 
下 执行 动作 。 

通常 ，Agent 的 推理 涉及 无 限 多 的 个 体 ， 因 此 也 涉及 无 限 多 的 特征 。 例 如 ， 如 果 
个 体 是 句子 ， 则 Agent 可 能 不 得 不 仅 推理 非常 有 限 的 句子 集合 (例如 ， 仅 包括 人 们 
可 以 说 的 句子 ， 或 者 那些 可 能 产生 的 合理 的 句子 )， 即 使 可 能 的 句子 也 是 无 限 的 
(从 而 ， 特 征 也 是 无 限 的 ) 。 


12.2 符号 与 语义 


第 5 章 是 关于 符号 的 推理 ， 这 些 符 号 表示 了 命题 。 在 本 节 ， 我 们 扩展 语义 用 于 个 体 和 
关系 的 推理 。 符 号 可 用 于 表示 个 体 或 关系 。 我 们 仍然 使 用 命题 ， 此 时 ， 原 子 命题 有 关于 关 
系 和 个 体 的 内 部 结构 。 


图 12-1 说 明了 带 有 个 体 和 关系 的 语义 的 一 般 思 想 。 对 于 符号 ， 知 识 库 的 设计 者 对 其 


赋予 了 意义 。 知 识 库 的 设计 者 知道 符号 kim, r123 和 in 在 问题 域 中 指 代 什 么 ， 并且 提供 
了 一 个 用 计算 机 的 表示 语言 编写 的 句子 组 成 的 知识 库 。 这 些 句子 对 于 设计 者 是 有 意义 的 。 
他 能 够 使 用 这 些 符号 提出 问题 ， 而 这 些 符号 代表 了 他 所 赋予 的 特定 含义 。 计 算 机 接收 到 这 
些 句子 和 问题 ， 然 后 计算 出 答案 。 计 算 机 不 知道 这 些 符号 的 含义 。 然 而 ， 为 这 些 符号 赋予 
了 含义 的 人 能 够 使 用 与 这 些 符 号 关联 的 含义 在 问题 世界 中 解释 计算 机 给 出 的 答案 。 


in(kim, r123) 
part of(r123, cs building) 
in(X, Y)— 
part_of(Z, Y y 
in(X, Z) 


Y 





m, tim, cs building) 


图 12-1 语义 的 角色 。 符 号 的 含义 在 用 户 的 头脑 里 。 计 算 机 处 理 输入 的 符号 ， 并 输出 符号 。 
输出 的 符号 可 由 用 户 根 据 其 赋予 这 些 符 号 的 含义 来 解释 
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存在 于 人 脑 之 中 的 符号 与 这 些 符号 所 指称 的 个 体 和 关系 的 映射 称 为 概念 化 (conceptu- 
alization)。 在 本 章 ， 我 们 假设 概念 化 存在 于 用 户 的 头脑 中 ， 或 者 是 非 正式 的 备注 。 使 概念 
化 变 得 明确 是 形式 本 体 的 作用 。 

根据 这 个 观点 ， 正 确 管 案 的 定义 独立 于 计算 出 答案 的 方式 。 知 识 库 的 正确 性 由 语义 来 
定义 ， 而 不 是 通过 一 个 用 于 证 明 查询 的 特定 算法 来 定义 。 只 要 推理 忠实 于 语义 ， 可 以 为 提 
高 效率 而 优化 证 明 程 序 。 这 种 含义 与 计算 的 分 离 使 得 Agent 在 优化 求解 性 能 的 同时 仍然 保 
持 正确 性 。 


12.3 Datalog: 一 个 关联 规则 语言 


本 节 扩 展 了 命题 的 限定 子 句 语言 的 语法 。 对 于 谓词 符号 ， 该 语法 基于 标准 的 数学 符 
号 ， 不 过 其 中 的 变量 遵循 Prolog 的 惯例 。 
Datalog 的 语法 (syntax) 给 定 如 下 ， 其 中 字 (Cword) 是 由 字母 、 数 字 或 下 划 线 (“” ?”) 组 成 
的 序列 : 
。 逻辑 变量 (variable) 是 以 大 写字 母 或 下 划 线 开头 的 字 。 
例如 X, Room, B4, Raths #il The_hbig_guy 均 为 变量 。 
逻辑 变量 与 代数 变量 或 随机 变量 不 同 。 
。 常量 (constant) 是 一 个 以 小 写字 母 开 头 的 字 ， 或 者 是 一 个 数字 或 字符 串 。 
。 谓词 符号 (predicate symbol) 是 以 小 写字 母 开 头 的 字 。 常 量 和 谓词 符号 通过 它们 在 
知识 库 中 的 上 下 文 来 识别 。 
Mili, kim, r123, f. grand father 和 borogroves 可 以 是 常量 也 可 以 是 谓词 符号 ， 这 
依赖 于 它们 的 上 下 文 ; 725 是 常量 。 
。 项 (term) 要 么 是 一 个 变量 ， 要 么 是 一 个 常量 。 
fil X, kim, cs422, mome W Raths 均 可 为 项 。 
© 我 们 扩展 原子 符号 (atom symbol) (或 简单 地 称 为 原子 ) 的 定义 ， 其 形式 如 pp 或 
Plt，"…，t,)， 其 中 是 一 个 谓词 符号 ， 而 每 一 个 是 一 个 项 。 每 一 个 4 是 上 述 
谓词 的 论 元 (argument)。 
fill. teaches(sue, cs422)、in(kim, r123), sunny, father(bill, Y), happy(C) 和 和 
outgrabe(mome，Raths) 均 可 为 原子 。 从 原子 outgrabe(mome，Raths) 的 上 下 文 ， 我 们 知 
道 outgrabe 是 一 个 谓词 符号 ， 而 mome 是 一 个 常量 。 
这 里 ， 限 定子 句 、 规 则 、 查 询 和 知识 库 的 概念 与 命题 的 限定 子 句 相同 ， 不 过 原子 的 定 
义 有 所 扩展 。 这 些 概念 的 定义 重复 如 下 : 
。 体 (body) 是 一 个 原子 或 原子 的 合 取 。 
。 限定 子 句 (definite clause) 是 一 个 原子 ( 称 为 原子 子 句 (atomic clause)), 或 者 具有 
ab 的 形式 ( 称 为 规则 (rule))， 甚 中 a 称 为 头 ， 是 一 个 原子 ， 而 5 是 一 个 体 。 我 
们 用 一 个 句点 表示 子 句 的 结束 。 
。 知识 库 (knowledge base) 是 一 个 限定 子 句 的 集合 。 
。 查询 (query) 的 形式 如 ask b, 其 中 5 是 一 个 体 。 
。 表达 式 (expression) 是 一 个 项 、 原 子 、 限 定子 名 或 是 一 个 查询 。 
在 我 们 的 例子 中 ， 注释 将 遵循 Prolog 的 惯例 ， 即 从 一 个 “%” 开 始 到 一 行 的 结束 均 为 
注释 ， 它 们 会 被 系统 忽略 。 
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与 传统 程序 设计 语言 的 关系 

本 章 介绍 的 逻辑 语义 的 概念 应 该 与 传统 的 程序 设计 语言 (如 Fortran, C++, Lisp 或 
Java) 中 的 过 程 化 语义 做 对 比 。 上 述 程 序 设计 语言 的 语义 明确 了 语言 结构 的 含义 ， 而 计算 
机 将 根据 规定 的 程序 执行 计算 。 这 一 点 与 这 里 介绍 的 证 明理 论 更 为 接近 。 雇 辑 语 义 为 确定 
符号 与 世界 的 关系 提供 一 种 途径 ， 也 提供 了 一 种 程序 的 结果 与 如 何 计算 出 该 结果 相互 独立 
的 途径 。 

语义 和 推理 理论 的 定义 对 应 于 Tarskian 语义 和 数学 逻辑 (logic) 中 的 证 明 的 概念 。 逻 
辑 多 许 我 们 定义 知识 ， 而 不 管 知识 是 如 何 使 用 的 。 只 要 知识 库 的 设计 者 或 用 户 知 道 其 中 知 
识 的 含义 ， 就 可 以 验证 知识 的 正确 性 。 人 们 可 以 辩论 用 语言 写 出 的 句子 是 和 否 为 真 ， 并 通过 
观察 世界 来 验证 其 陈述 。 相 同 的 语义 可 以 用 来 确定 实现 的 正确 性 。 

个 体 的 概念 与 在 面向 对 象 语言 (object oriented language) ，( 如 Smalltalk、C++ 或 Java) 
中 对 象 的 定义 类 似 。 主 要 的 区 别 是 面向 对 象 语言 中 的 对 象 是 计算 的 对 象 ， 而 不 是 真实 的 
物理 对 象 。 在 面向 对 象 语言 中 ,一 个 “person” 对 象 是 一 个 人 (person) 的 表示 ， 它 不 是 一 
个 真实 的 人 。 然 而 ,在 AI 中 讨论 的 表示 和 推理 系统 中 ， 一 个 个 体 “person” 可 以 表示 一 
个 真实 的 人 。 在 面向 对 象 语 言 中 ， 对 象 间 相 互 发 送 消息 。 从 逻辑 方面 看 ， 我 们 不 仅 想 与 
对 象 交 互 ， 我 们 还 想 对 它们 做 出 推理 。 我 们 可 能 希望 能 够 预测 一 个 对 象 将 会 做 什么 ， 页 
不 是 让 对 象 做 一 件 事 然 后 观察 它 做 了 什么 。 我 们 可 能 希望 根据 观察 到 的 行为 来 预测 对 象 
的 内 部 状态 ， 例 如 在 诊断 病人 时 的 情况 。 我 们 甚至 想 推理 、 预 测 个 体 的 行为 ， 而 该 个 体 
可 能 试图 故意 隐藏 信息 ， 并 且 不 想 让 我 们 知道 它 做 了 什么 。 人 例如， 考虑 一 个 “person” 对 
KR: 尽管 可 以 与 该 人 进行 一 些 交 互 ， 但 我 们 仍然 常常 对 许多 信息 一 无 所 知 。 因 为 我 们 不 
能 一 直 询 问 他 来 获得 这 些 信息 (他 可 能 也 不 知道 或 者 不 想 告诉 我 们 )， 所 以 我 们 需要 关于 
该 个 体 的 信息 的 一 些 外 部 表示 。 与 一 个 椅子 或 一 种 疾病 的 交互 更 加 困难 ， 但 我 们 仍然 希 
望 对 它们 做 些 推理 。 

许多 程序 设计 语言 都 有 一 些 处 理 设计 的 对 象 的 设施 ,甚至 可 能 有 一 个 单一 的 目标 。 例 
如 ,在 Java 中， 对象 不 得 不 适应 单一 的 类 继承 机 制 ， 而 现实 中 的 个 体 可 能 有 多 种 角色 ， 
属于 多 种 类 别 ; 正 是 这 些 类 间 的 复杂 的 交互 确定 了 它们 的 行为 。 知 识 库 的 设计 者 可 能 事先 
不 知道 这 些 类 将 会 如 何 交互 。 


【 例 12-2) 下 面 是 一 个 知识 库 : 

inCkim,R)«teaches(kim.cx422) Nin(cs422.R) 

grand father( sam, KX)=<— father(sam.Y) A parent(Y , X) 

slithy(toves)<-mimsy \ borogroves \ outgrabelmome , Raths) 

RHE FX, kim, cs422, sam, toves 和 mome 都 是 常量 ; in, teaches, grandfather, 
father, parent, slithy, mimsy, borogroves 和 outgrabe 都 是 谓词 符号 ; 而 X、Y 和 Raths 都 
是 变量 。 

前 两 个 关于 Kim 和 Sam 的 子 句 可 能 有 一 些 直观 的 意义 ， 即 使 我 们 还 没有 为 限定 子 句 语 
言 中 的 句子 的 含义 明确 提供 任何 形式 上 的 说 明 。 然 而 ， 如 果 不 考虑 助 记 符 提供 的 暗示 信息 ， 
对 计算 机 市 言 ， 前 两 个 子 句 并 不 比 第 三 个 有 更 多 的 意义 。 含 义 仅仅 通过 语义 来 表达 。 < 

如 果 一 个 表达 式 不 含有 任何 变量 ， 则 它 是 基 (ground) 的。 例如 ，teaches ( fred, 
cs322) 是 一 个 基 表 达 式 但 teaches(Prof ，Couse) 不 是 一 个 基 表 达 式 。 

在 下 一 节 定 义 了 语义 。 我 们 首先 考虑 基 表 达 式 ， 然 后 扩展 语义 以 包含 变量 。 
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12.3.1 Æ Datalog 的 语义 


给 出 Datalog 的 语义 的 第 一 步 是 给 出 基 的 情况 下 (不 含 变量 的 情况 下 ) 的 语义 。 

解释 (interpretation) 是 一 个 三 元 组 I=(D, $, r), Hh 

。 也 是 一 个 称 为 域 (domain) 的 非 空 集合 。 的 元 素 称 为 个 体 (individual) 。 

。$ 是 一 个 为 每 一 个 常量 指派 了 一 个 DD 中 的 元 素 的 映射 。 

。 xt 是 一 个 为 每 一 个 元 谓词 符号 指派 了 一 个 从 D" 到 {true，false} 的 函数 的 映射 。 

$ 是 一 个 从 名 字 映 射 到 域 中 的 个 体 的 函数 。 称 常量 c 指示 (denote) 了 个 体 #$(c)。 这 里 ， 
c 是 一 个 符号 ， 而 $0) 可 以 是 任何 事物 : 可 以 是 一 个 真实 的 物理 对 象 ， 如 一 个 人 或 一 种 病 
毒 ; 可 以 是 一 个 抽象 的 概念 ， 如 一 个 课程 、 爱 或 者 数字 2， 甚 至 是 一 个 符号 。 

x(p) 指 示 了 nn 元 谓词 符号 p 对 于 每 一 个 体 的 n 元 组 是 否 为 真 或 为 假 。 如 果 谓 词 符号 p 
没有 论 元 ， 那 么 x(p) 或 者 为 真 或 者 为 假 。 因 此 ， 对 于 没有 论 元 的 谓词 符号 ， 其 语义 就 退 
化 为 命题 的 限定 子 句 的 语义 。 

【 例 12-3) 考虑 由 下 面 三 种 位 于 桌子 上 的 物体 构成 的 世界 : 


< Ff S 


以 上 述 的 方式 来 画 出 物体 是 因为 它们 是 世界 中 的 物体 ， 而 不 是 符号 。>< 是 一 把 剪刀 ， 
TEHER, SEXE. 


假设 在 我 们 的 语言 中 ， 它 们 对 应 的 常量 为 phone, pencil 和 telephone, RNA W 
noisy 和 Left_of。 假 设 谓词 noisy 是 一 个 一 元 谓词 ( 它 有 一 个 论 元 )，left_of 是 一 个 二 元 谓 
词 ( 它 有 两 个 论 元 )。 

一 个 表示 了 桌子 上 的 物体 的 解释 是 : 

。 D={x<, T, &} 

» $(phone)=B, $( pencil) =&, $(telephone)=B 

。 x(noisy): [ (3<) false | (T) true | (®) false | 











(è<, ><) false| (><, B) true | (<, &) true 

m(left_of): | (Œ, =<) false | (BB, B®) false| (Œ, &) true 

(a, x<) false | (&, T) false | (®, &) false 
因为 noisy 是 一 个 一 元 谓词 ， 所 以 它 只 处 理 一 个 个 体 ， 并 针对 每 一 个 个 体 有 一 个 真 值 。 
因为 left_of 是 一 个 二 元 谓词 ， 它 处 理 一 对 个 体 ， 并 且 在 该 对 个 体 的 第 一 个 元 素 位 于 
第 二 个 元 素 的 左边 时 取 值 为 真 。 因 此 ，x(ieft_o 有 ((<， 富 )) 二 true， 因 为 剪刀 在 电话 的 

左边 ; r(left_of)((&, &))= false, ANBBEAAR A SHAW. 

请 注意 DD 是 世界 中 的 物体 的 集合 。 关 系 处 在 该 世界 中 的 物体 之 间 ， 而 不 是 在 这 些 物体 


的 名 字 之 间 。 由 于 名 指定 phone Ail telephone 指向 同一 件 物体 ， 所 以 在 这 个 解释 下 ， 对 于 
它们 的 相同 陈述 均 为 真 。 


【 例 12-4] 考虑 图 12-1 的 一 个 解释 。 

D 是 一 个 有 4 个 元 素 的 集合 ， Kim、 房 间 123(r123)、 房 间 023(r023) 和 CS 大 楼 (CS 
building)。 这 不 仅 是 4 个 符号 的 集合 ， 而 且 是 包括 了 真实 的 人 、 真 实 的 房间 和 真实 的 大 楼 
的 集合 。 很 难 描述 这 个 集合 ， 幸 运 的 是 ， 你 永远 也 不 必 真 的 描述 它们 。 为 记 住 它们 的 含义 
并 把 该 含义 传达 给 另 一 个 人 ， 知 识 库 的 设计 者 通常 要 通过 指定 物理 个 体 或 描绘 它们 ( 正 像 





< 


在 图 12-1 中 那样 ) 并 通过 自然 语言 来 描述 它们 的 方法 来 描述 D, pAr. 
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其 中 的 常量 为 kim、rl23、r023 和 cs_building。 映 射 $ 使 用 灰色 的 、 从 每 一 个 常量 指 
向 图 12-1 世界 中 的 物体 的 边 来 定义 。 

谓词 符号 为 person、in 和 part_of。 这 些 谓词 的 含义 就 是 图 中 的 边 所 传达 的 意思 。 

因此 ， 叫 Kim 的 人 在 房间 xr123， 同 时 也 在 CS 大 楼 里 ， 并 且 它 们 是 关系 in 的 唯一 实 
例 ( 该 关系 为 真 )。 类 似 的 ， 房 间 r123 和 房间 r023 是 CS 大 楼 的 一 部 分 ， 除 此 之 外 ， 在 这 
个 解释 中 不 存在 别 的 为 真 的 part_of 关系 。 

需要 强调 的 是 ，D 中 的 元 素 是 真实 的 物理 个 体 ， 而 不 是 这 些 个 体 的 名 字 。 名 字 kim 不 
在 名 字 r123 中 ， 相 对 的 ，kim 指示 的 那个 人 在 r123 指示 的 那个 房间 中 。 < 

在 一 个 解释 中 ， 每 一 个 基 项 指 代 了 一 个 个 体 。 常 量 c 指 代 的 解释 工 中 的 个 体 表 示 
Alb Cc) 。 

在 一 个 解释 中 ， 一 个 基 原 子 的 取 值 要 么 为 真 要 么 为 假 。 在 解释 了 中 ， 如 果 K, s 
t, )=true y 是 项 4 所 指 代 的 个 体 )， 则 原子 pa. ARs 否则 为 假 。 

【 例 12-5] 在 例 12-4 中 的 解释 下 ， 原 子 in(kim，r123) 为 真 ， 因 为 kim 所 指 代 的 人 的 
确 在 r123 所 指 代 的 房间 里 。 类 和 似 的 ，person(kim) 为 真 ，part_of(rl123，cs_building) 也 为 
A. JRF in(cs_building, r123) person(r123) 在 上 述 解 释 下 为 假 。 < 


12.3.2 解释 变量 


当 一 个 变量 出 现在 一 个 子 句 中 时 ， 该 子 句 在 一 个 解释 下 为 真 的 条 件 是 对 于 变量 的 所 有 
可 能 取 值 该 子 句 均 为 真 。 在 子 句 作用 域内 ， 称 变量 是 全 称 量化 (universally quantified) H. 
WREE X 出 现在 子 句 C 中 ， 则 称 C 在 解释 下 为 真 就 意味 着 C 为 真 且 与 X 指 代 的 是 域 中 
的 哪 一 个 体 无 关 。 

为 形式 地 定义 变量 的 语义 ， 一 个 变量 指派 (variable assignment)p 是 一 个 从 变量 集合 到 
域 DD 的 函数 。 因 此 ， 一 个 变量 指派 就 为 每 一 个 变量 指定 了 域 中 的 一 个 元 素 。 给 定 光 和 一 个 
变量 指派 p， 每 一 个 项 都 指示 了 域 中 的 一 个 个 体 。 如 果 指 定 的 项 是 一 个 常量 ， 则 其 指 代 的 
个 体 由 Y% 给 出 。 如 果 指 定 的 项 是 一 个 变量 ， 则 其 指 代 的 个 体 由 给 出 。 给 定 一 个 解释 和 一 
个 变量 指派 ， 根 据 前 面 的 定义 ， 每 一 个 原子 非 真 即 假 。 类 似 的 ， 给 定 一 个 解释 和 一 个 变量 
指派 ， 每 一 个 子 句 均 非 真 即 假 。 

一 个 子 句 在 一 个 解释 下 为 真 ， 如 果 该 子 句 对 于 所 有 的 变量 指派 均 为 真 。 这 称 为 全 称 量 
化 。 而 变量 则 称 为 在 子 句 作 用 域内 是 全 称 量化 的 。 因 此 ， 在 一 个 解释 中 一 个 子 句 为 假 就 意 
昧 着 存在 一 个 变量 指派 ， 在 该 指派 下 子 句 为 假 。 变 量 的 作用 域 是 整个 子 句 ， 这 意味 着 对 于 
一 个 子 句 的 所 有 实例 ， 变 量 指派 都 是 相同 的 。 

【 例 12-6) 子 句 

part of (X,¥)~in(E.¥) 

在 例 12-4 的 解释 中 为 假 ， 因 为 在 X 指 代 开 zz 和 了 指 代 房 间 r123 这 一 指派 下 ， 子 句 的 体 
为 真 ， 而 子 句 的 头 为 假 。 子 句 

in(X,Y)<-part_of(Z,Y) \ in(X,Z) 

为 真 ， 因 为 在 任何 变量 指派 下 ， 子 句 的 体 和 头 均 为 真 。 a 

逻辑 结论 的 定义 见 5. 1.2 47: MRAP AK g 在 KB 的 每 一 个 模型 下 为 真 ， 则 称 g 为 
KB 的 逻辑 结论 (logical consequence), iAH KB Kg. 
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【 例 12-7】 假设 知识 库 KB 为 

in(kim,rl23) 

part_of (rl23,cs_building) 

in(X ,Y)<— 

part_of(Z,Y) A 
in(X.Z) 

例 12-4 中 定义 的 解释 是 KB 的 一 个 模型 ， 因 为 在 该 解释 下 ,每 一 个 子 句 均 为 真 。 

KB Fin(kim，r123)， 因 为 这 一 点 已 明确 地 在 知识 库 中 陈述 。 如 果 在 一 个 解释 下 KB 
中 的 每 一 个 子 句 均 为 真 ， 那么 in(kim，r123) 在 那个 解释 下 必 为 真 。 

KB þ£in(kim, r023). fi) 12-4 中 定义 的 解释 是 KB 的 一 个 模型 ， 在 该 模型 中 inlkim, 
r023) 为 假 。 

KBE part_of (r023, cs_building), ISE fe fi] 12-4 的 解释 下 part_of (r023, cs_ 
building) AH, (AE KB 中 存在 着 另 一 个 模型 ， 在 该 模型 中 part_of(r023, cs_building) 
为 假 。 特 别 地 ， 对 于 类 似 于 例 12-4 中 的 解释 的 解释 ， 其 中 

ní part_of)(<$(71023) ,ples_building)))= false 
是 KB 的 一 个 模型 ， 在 其 中 part_of(r023，cs_building) 为 假 。 

KB Fin(kim，cs_building)。 如 果 在 解释 IF KB 中 的 子 句 为 真 ， 则 in(kim,， cs_ 
building) 一 定 为 真 ; 否则 就 会 存在 一 个 实例 使 得 KB 中 的 第 三 个 子 句 在 解释 1 下 为 假 
这 与 1 是 KB 的 一 个 模型 相 矛 盾 。 < 

请 注意 语义 处 理 出 现在 子 句 体 ( 而 不 是 子 句 头 ) 中 的 变量 的 方式 (参见 例 12-8) 。 

Col 12-8) 在 例 12-7 中 ， 定 义 in 的 子 句 中 的 变量 Y 在 子 句 水 平 上 是 全 称 量化 的 : A 
此 ， 对 于 所 有 的 变量 指派 ， 子 句 均 为 真 。 考 虑 XX 取 值 c，，Y 取 值 c; 的 情况 。 子 名 

inlc, Ca ) < 一 

part_of(Z.c2.) AN 

infe Z) : 
对 于 Z 的 所 有 变量 指派 均 为 真 。 如 果 存 在 一 个 Z 的 变量 指派 c3， 使 得 part_of(Z. cz) Nin 
(cl1，2Z) 在 一 个 解释 下 为 真 ， 那么 in(c,，c) 在 该 解释 下 必 为 真 。 因此， 你 可 以 将 例 12-7 
的 最 后 一 个 子 句 读 作 “对 于 所 有 的 X 和 所 有 的 Y， 如 果 存 在 一 个 Z 使 得 part_of(Z. Y) A 
in(X, DAH. WinX, YAH”. < 

如 果 我 们 希望 使 量化 更 加 明确 ， 可 写 为 YX p(X)， 可 读 作 "对 于 所 有 的 X, pO”. 
其 含义 是 对 于 X 的 每 一 个 变量 指派 p(X) 为 真 。 对 于 X 的 某 些 变量 指派 p(X) 为 真 的 情况 
OMAN p(X). 读 作 “ 存 在 使 得 p(X)”。 久 被 称 为 存在 量化 的 变量 (existentially quan- 
tified variable) 。 

规则 POOQ, YMA ME 

VXVYCPCX)-QCX,Y)) 

它 等 价 于 

Y X(PCX)+ 3YQCX,Y)) 

Pik. RAE r AY A h ee ERD PE DE ee ETS 

有 的 情况 下 ， 我们 会 对 于 一 些 奇 异 的 事情 谈论 子 句 是否 为 真 . 而 这 些 情况 是 没有 意义 的 . 

【 例 12-9) 考虑 下 面 的 子 句 

inCes 422 love) 


part_of (cs422,sky) A 





in€skv.iove) 
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其 中 ，cs422 指 代 一 个 课程 ，lowve 指 代 一 个 抽象 的 概念 ， 而 sky BRAS. KH, 根据 一 
的 真 值 表 ， 在 上 述 特 定 的 解释 下 ， 子 句 没 有 意义 但 值 为 真 ， 因 为 在 上 述 的 解释 里 子 句 的 右 
边 部 分 为 假 。 4 

只 要 头 是 无 意义 的 ， 体 也 会 是 无 意义 的 ， 因 此 该 规则 就 永远 不 能 用 来 证 明 任 何 无 意 
义 的 东西 。 在 检查 一 个 子 句 是 否 为 真 时 ， 你 只 需 考 虑 子 句 的 体 为 真 的 情况 。 当 体 为 假 时 
子 句 恒 为 真一 一 利用 这 个 规则 可 简化 语义 ， 且 不 会 导致 任何 问题 ， 即 使 子 句 没有 任何 
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语义 的 形式 描述 没有 告诉 我 们 语义 为 什么 是 有 意思 的 ， 也 没有 告诉 我 们 它 如 何 成 为 构 
建 智能 系统 的 基础 。 使 用 逻辑 背后 的 基本 想法 是 : 当知 识 库 的 设计 者 想 要 描述 一 个 特定 的 
世界 时 ， 他 们 可 以 选择 那个 世界 作为 一 个 特定 的 解释 (intended interpretation) ， 并 针对 该 
解释 选择 符号 的 准确 含义 ， 然 后 写 出 子 句 ， 表 示 出 在 那个 世界 中 为 真 的 东西 。 当 系统 计算 
出 知识 库 的 一 个 逻辑 结论 时 ， 知 识 库 的 设计 者 或 用 户 能 够 根据 特定 的 解释 来 解释 这 个 结 
论 。 因 为 这 个 特定 的 解释 是 一 个 模型 ， 且 一 个 逻辑 结论 在 所 有 的 模型 中 均 为 真 ， 所 以 逻辑 
结论 在 这 个 特定 的 解释 中 必 为 真 。 

通常 ， 为 讨论 的 世界 设计 一 个 表示 及 该 表示 如 何 适应 形式 语义 的 方法 为 : 

第 一 步 : 选择 要 表示 的 任务 的 域 或 世界 。 它 们 可 以 是 现实 世界 的 某 些 方面 (例如 ， 大 
学 里 的 课程 结构 和 学 生 ， 或 一 个 特定 时 间 的 实验 室 环境 ) 、 某 些 虚 构 的 世界 (如 爱丽 丝 梦游 
仙境 中 的 世界 ， 或 一 个 开关 故障 时 的 用 电 环 境 的 状态 ) ， 或 一 个 抽象 的 世界 (如 数 与 集合 的 
世界 ) 。 在 这 个 世界 中 ， 记 域 D 为 所 有 你 希望 能 够 引用 或 推理 的 个 体 或 事物 的 集合 。 另 外 ， 
选择 要 表示 的 关系 。 

第 二 步 : 将 描述 语言 中 的 常量 与 世界 中 你 想 要 命名 的 个 体 建立 联系 。 对 于 DD 中 的 每 一 
个 你 想 要 通过 名 字 引 用 的 元 素 , 均 指派 语言 中 的 一 个 常量 。 例 如 ， 你 可 能 选择 名 字 “kim” 
来 指 代 一 个 特定 的 教授 ， 名 字 “cs322? 来 指 代 特 定 的 AI 人 门 课程 ， 名 字 “two” 来 指 代 数字 1 
后 面 的 数 ， 名 字 *red” 来 指 代 停 止 信号灯 的 颜色 。 每 一 个 名 字 都 指 代 了 世界 中 对 应 的 个 体 。 

第 三 步 : 对 于 每 一 个 你 想 表达 的 关系 都 关联 语言 中 的 一 个 谓词 符号 。 每 一 个 并 元 谓词 符 
号 指示 了 一 个 从 D" 到 {true，false} 的 函数 ， 该 函数 指明 上 述 关系 在 D" 的 一 个 子 集 上 为 真 。 
例如 ， 有 两 个 论 元 (一 个 教师 和 一 个 课程 ) 的 谓词 符号 “teaches” 可 能 对 应 于 一 个 二 元 关系 ， 该 
关系 在 第 一 个 论 元 指 代 的 个 体 讲授 了 第 二 个 论 元 指 代 的 课程 时 为 真 。 这 些 关系 不 必 为 二 元 
的 。 它 们 可 以 有 任意 个 数 ( 零 个 或 多 个 ) 的 论 元 。 例 如 ，"is_red” 可 能 是 只 有 一 个 论 元 的 谓词 。 

符号 与 它们 的 含义 的 关联 构成 了 一 个 特定 的 解释 。 

第 四 步 : 现在 写 下 在 特定 的 解释 中 为 真 的 子 句 。 这 通常 被 称 为 域 的 公理 化 (axiomatizing)， 
其 中 给 出 的 子 句 是 域 中 的 公理 (axiom) 。 如 果 符 号 kim 指 代 的 那个 人 确实 讲授 了 符号 cs502 指 代 
的 课程 ， 则 你 可 以 断言 子 句 ieaches(kim，cs502) 在 给 出 的 特定 的 解释 中 为 真 。 

第 五 步 : 现在 你 可 以 提出 关于 该 特定 的 解释 的 问题 并 能 使 用 赋予 符号 的 含义 来 解释 结果 。 

根据 这 个 方法 ， 知 识 库 的 设计 者 在 第 四 步 之 前 实际 上 没有 告诉 计算 机 任何 事情 。 前 三 
步 在 设计 者 的 脑子 中 进行 。 当 然 ， 设 计 者 应 该 为 那些 符号 表示 建立 文档 ， 使 其 他 人 能 够 理 
解 设 计 出 的 知识 库 ， 从 而 使 得 他 们 记 住 每 一 个 符号 的 表示 ， 也 能 够 检查 子 句 是 否 为 真 。 计 
算 机 不 必要 访问 上 述 的 内 容 。 

世界 本 身 并 不 规定 个 体 是 什么 。 

【 例 12-10] 在 一 个 域 的 某 概 念 化 中 ，zpik 可 能 是 有 一 个 论 元 的 谓词 符号 ， 且 当 论 元 所 
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指 代 的 个 体 为 粉色 时 其 值 为 真 。 在 另 一 个 概念 化 中 ，pink 可 能 指 代 一 个 颜色 为 粉色 的 个 体 ， 
且 可 用 做 有 两 个 论 元 的 谓词 color 的 第 二 个 论 元 的 值 ， 其 中 谓词 color 的 含义 是 第 一 个 论 元 所 
指 代 的 个 体 具有 第 二 个 论 元 所 指 代 的 颜色 。 另 外 ， 一 些 人 可 能 想 在 某 一 水 平 上 描述 世界 ， 此 
时 可 能 不 区 分 红色 的 深浅 浓淡 ， 因 此 在 描述 中 并 不 包括 粉色 。 另 一 些 人 可 能 想 从 更 细节 的 水 
平 上 来 描述 世界 ， 此 时 粉色 显得 过 于 笼统 ， 所 以 使 用 了 诸如 珊瑚 色 和 钾 肉 色 来 描述 。 < 

认识 到 符号 的 准确 含义 在 知识 库 设 计 者 的 头脑 里 是 重要 的 。 有 些 时 候 ， 这 些 符 号 的 准 
确 含义 甚至 没有 写 下 来 ;即使 写 下 来 了 ， 也 常常 是 用 自然 语言 的 形式 来 向 其 他 人 传递 这 些 
含义 。 当 域 中 的 个 体 是 真实 的 物理 对 象 时 ， 常 常 难以 给 出 其 准确 含义 ， 除 非 指 明 其 实体 本 
身 。 当 个 体 是 一 个 抽象 的 个 体 时 一 一 例如 大 学 里 的 一 门 课程 或 爱 的 概念 ， 则 几乎 完全 不 可 
能 写 出 它们 的 准确 含义 。 然 而 ， 这 并 不 能 阻止 系统 表示 和 推理 这 类 的 概念 。 

【 例 12-11) 在 例 5-5 中 仅 用 命题 表示 了 图 1-8 中 的 用 电 环 境 。 使 用 个 体 和 关系 能 够 使 
表示 更 加 直观 ， 因 为 关于 开关 如 何 工作 的 通用 知识 能 够 清楚 地 与 关于 一 个 特定 的 房子 的 知 
WA. 

为 表示 这 个 域 ， 我 们 首先 要 确定 域 中 都 有 哪些 个 体 。 在 下 文中 ， 我 们 设 每 一 个 开关 、 
每 一 蔓 灯 、 每 一 个 插座 均 为 个 体 。 我 们 也 将 两 开关 间 的 电线 和 开关 与 电灯 间 的 电线 表示 为 
个 体 。 有 些 人 可 能 会 说 ， 事实 上 有 多 对 电线 使 用 连接 器 连接 起 来 ， 且 电流 必须 服从 基 和 尔 霍 
夫 定 律 。 另 一 些 人 可 能 会 说 上 面 的 抽象 也 是 不 合适 的 ， 我 们 应 该 为 电流 的 流动 建 模 。 不 
过 ,适宜 于 求解 处 理 的 问题 的 抽象 就 是 一 个 合适 水 平 的 抽象 。 房 子 里 的 居民 可 能 不 知道 电 
线 个 体 之 间 在 哪里 连接 ， 也 不 知道 电压 是 多 少 。 因 此 ， 我们 假设 一 个 电流 模型 ， 在 其 中 电 
流 从 房子 外 面 通过 电线 到 达 电 灯 。 这 个 模型 对 于 确定 电灯 是 否 点 亮 是 合适 的 ， 不 过 它 可 能 
不 适合 处 理 所 有 的 任务 。 

下 一 步 ， 为 每 一 个 我 们 想 要 引用 的 个 体 指 定名 字 。 这 在 图 1-8 中 已 经 完成 。 例 如 ， 个 
体 wo 是 电灯 与 开关 s 间 的 电线 。 

下 一 步 ， 选 择 要 表示 的 关系 。 假 设 有 下 面 的 谓词 和 与 它们 联系 的 特定 的 解释 : 

。 light LAR, WR LER MAE — HT. 

。 Lit( 工 ) 为 真 ， 如 果 电 灯 工 开 着 并 正在 发 光 。 

。 live(W) 为 真 ， 如 果 有 电能 进入 WW; 也 就 是 说 ，W 是 通电 的 。 

。 up(S) 为 真 ， 如 果 开 关 S 是 闭合 的 。 

。 down(S) 为 真 ， 如 果 开 关 S 是 断 开 的 。 

。 oR NAH, MRE WAM: EE 可 以 是 断路 开关 ， 也 可 以 是 电灯 。 

。 connected io(X，7Y) 为 真 ， 如 果 元 件 和 与 元 件 了 是 连接 的 ， 从 而 电流 能 从 邓 流 到 X. 

在 这 个 阶段 ,我们 还 没有 告诉 计算 机 任何 事情 。 它 还 不 知道 有 哪些 谓词 ， 更 不 用 说 这 
些 谓词 的 含义 了 。 它 还 不 知道 存在 哪些 个 体 及 这 些 个 体 的 名 字 。 

在 知道 关于 特定 房屋 的 任何 事情 之 前 ， 可 以 向 系统 输入 下 面 的 一 般 规则 : 

lit(L)<light(L) A live(L) A ok(L) 

递归 的 规则 可 证 你 根据 什么 与 什么 相连 来 说 明 哪 些 是 通电 的 : 

live(X)<-connected to(X,Y) 人 liveC(Y) 

live(outside) 

对 于 特定 的 房屋 ， 给 定 一 个 元 件 的 特定 配置 和 它们 的 连接 关系 ， 就 可 告诉 计算 机 下 面 
关于 所 讨论 的 世界 的 事实 : 

light(1;) 

light(l2 ) 
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down(s,) 

up(se) 

connected _to(wy »w, )<-up(s2 ) 
connected _to( wo »w,)~down(s») 


connected_toCw, ,w;)<up(s; ) 
这 些 规则 和 原子 子 句 就 是 告诉 计算 机 的 全 部 内 容 。 计 算 机 不 知道 这 些 符号 的 含义 。 然 
而 ， 它 现在 可 以 回答 有 关 该 特定 房屋 的 问题 。 < 


12.3.3 PERKER 


查询 用 来 询问 某 结论 是 否 是 知识 库 的 逻辑 结论 。 使 用 命题 查询 ， 用 户 可 以 询问 yes-no 的 问 
题 。 带 参数 的 查询 允许 系统 返回 变量 的 取 值 一 一 该 取 值 使 查询 的 事物 成 为 知识 库 的 逻辑 结论 。 

通过 使 用 项 替换 查询 中 的 变量 来 得 到 查询 的 实例 (instance)。 同 一 个 变量 的 多 次 出 现 
需要 使 用 同一 个 项 来 替换 。 给 定 一 个 有 自由 变量 的 查询 ， 其 解答 (answer) 或 者 是 查询 的 一 
个 实例 (是 知识 库 的 一 个 逻辑 结论 ) 或 者 是 “no”( 意 味 着 没有 查询 的 实例 可 从 知识 库 导 出 ) 。 
通过 为 查询 中 的 变量 提供 具体 的 值得 以 确定 查询 的 实例 。 确 定 查询 的 哪个 实例 可 从 知识 库 
导出 的 过 程 被 称 为 解答 抽取 (answer extraction), 

【 例 12-12) 考虑 图 12-2 中 的 子 句 。 写 下 这 些 子 句 的 人 大 概 为 这 些 符号 联系 了 一 些 特 
定 的 含义 ， 并 且 这 些 子 句 在 某 个 或 许 是 虚构 的 世界 中 是 真实 的 。 计 算 机 对 房间 和 方向 一 无 
所 知 。 它 所 知道 的 仅 是 那些 给 定 的 子 句 ; 且 它 能 计算 逻辑 结论 。 


% imm _west(W, EVA, MR] W 紧 接 在 房间 互 的 西边 
imm_west(rl01, r103) 
imm_west(71103, r105) 
imm_west(7105, r107) 
imm_west(r107, r109) 
imm_west(rl09, r111) 
imm_west(r131, r129) 
imm_west(r129, r127) 
imm_west(r127, r125) 
imm _east(E, WAR. WRB E RRR W 的 东边 
imm _east(E, W)= 
imm_west(W, E) 
%next _door(R1, R) HA, MRS R1 是 房间 R2 HR 
next _door(E, W)< 
imm_east(E, W) 
next _door(W, E)< 
imm_west(W, E) 
%two_doors_east(E, WHH, WRB EERW 东边 第 二 个 门 
two_doors_east(E, W)< 
imm_east(E, M) A 
imm_east(M, W) 
YuestW, DAK, MRS W ERRE 的 西边 
west (W, E)+ 
imm_west(W, E) 
west (W, E)<— 
imm_west(W, MDA 
west(M, E) 504 
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用 户 可 以 提出 下 面 的 查询 : 
ask imm_west(r105,r107) 
而 解答 是 yes。 用 户 可 以 提出 以 下 查询 : 
ask tmm_east(r107.7r105) 
解答 仍然 是 yes。 用 户 可 以 继续 提出 以 下 查询 : 
ask imm_west(r205 ,r207) 
此 时 的 解答 是 no。 这 意味 着 查询 的 内 容 不 是 一 个 逻辑 结论 ， 而 不 是 说 其 为 假 。 在 知识 库 中 
没有 足够 的 信息 来 确定 房间 r205 是 否 紧 接 在 房间 r207 的 西边 。 
# if] 
ask next_door(R,r105) 
AAS RS. HE R=rl07. 意味 着 zezt_coor(r107，rl105) 是 子 句 集合 的 一 个 逻辑 结 
论 。 另 一 个 解答 是 R 一 103。 查 询 
ask west(R,rl05) 
有 两 个 解答 : R=r103 和 R=r101. i 
ask west(r105,R) 
有 三 个 解答 : R=rl07, R=rl09 和 RR 二 r111。 查 询 
ask next_door( X,Y) 
A 16 个 解答 ， 包 括 了 
X=rl03,Y=r101 
X=rl05,Y=r103 
X=rl101,Y=r103 


12.4 证 明 与 替换 


5.2.2 节 中 的 自 底 向 上 和 自 项 向 下 的 命题 证 明 过 程 均 可 经 过 扩展 用 于 Datalog。 

子 句 的 实例 通过 用 项 替换 子 句 中 的 变量 来 得 到 。 一 个 特定 变量 的 所 有 出 现 位 置 均 蔡 换 
为 相同 的 项 。 针 对 变量 而 扩展 的 证 明 过 程 必须 考虑 这 样 一 个 事实 : 子 句 中 的 自由 变量 意味 
着 子 句 的 任何 实例 均 为 真 。 同 一 个 证 明 过 程 中 可 能 不 得 不 使 用 同一 个 子 句 的 不 同 实例 。 这 
种 为 每 一 个 变量 赋 什 么 值 的 过 程 被 称 为 替换 。 

一 个 兰 换 (substitution) 是 一 个 有 限 的 {Vi/t，…、V,/z,) 形 式 的 集合 ， 其 中 每 一 个 V; 
是 一 个 不 同 的 变量 ， 每 一 个 i; 是 一 个 项 。 集 合 中 的 元 素 V;/i; 是 变量 Vi 的 一 个 绪 定 
(binding)。 如 果 在 任何 一 个 项 i; 中 均 没 有 变量 V; 出 现 ， 则 称 该 替换 为 标准 形 (normal 
form) 替 换 。 

[B 12-13】 例如 ，{XX/Y 了 ，Z/a} 是 一 个 标准 形 蔡 换 ， 其 中 将 X 绑 定 为 了 Y， 将 RE 
为 &。 而 替换 {X/Y，2Z7X) 不 是 一 个 标准 形 蔡 换 ， 因 为 变量 X 既 出 现在 了 一 个 绑 定 的 左边 
又 出 现在 了 一 个 绑 定 的 右边 。 < 

Bh oH (Vist. s Va /t ERARA e 上 的 应 用 (application)、 记 为 ec， 是 一 个 与 原 
始 的 表达 式 “ 类似 的 表达 式 ， 不 同 之 处 在 于 e 中 出 现 V, 的 地 方 被 替换 成 了 相应 的 t+;:。 表 达 
式 eo 被 称 为 e 的 一 个 实例 。 如果 ec 不 包含 任何 变量 ， 则 它 被 称 为 e 的 基 实 例 Cground 
instance), 

【 例 12-14) 替换 的 一 些 应 用 如 下 : 


pla .X)(X/c}= pla.c) 
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PLY sO {Y/a} = pla,c) 

pla, X){¥/a,Z/X}=pla,X) 

POX. XVY,Y1Z){ X/Z,Y/t} = p(Z,Z.t,t,Z) 

替换 可 应 用 于 子 句 、 原 子 和 项 。 例 如 ， 将 替换 {X/Y，Z/a} 应 用 于 子 句 

P(X.Y)<=qla.Z,X,Y,Z) 

得 到 的 结果 是 子 句 

PCY, Y)<qla.a,Y.Y,a) < 

如 果 ec 与 eso 相同 则 称 替 换 v 为 表达 式 e; Me 的 合 一 算 子 。 也 就 是 说 ， 两 个 表达 式 
的 合 一 算 子 是 一 个 替换 ， 当 将 该 替换 应 用 到 每 一 个 表达 式 上 时 ， 会 得 到 相同 的 结果 。 

【 例 12-15] (X/a, Y/b}/ Œ tla, Y, OMX., b, OWMA—-BT. AN 

t(a,Y.0){X/a.¥/b} =t(X,b,c){X/a,¥/b} =tlasbyc) < 

表达 式 可 以 有 许多 合 一 算 子 。 

【 例 12-16) 原子 p(X,，Y) 和 p(2Z，Z) 有 许多 合 一 算 子 ， 包 插 {X/b,，Y/b，Z/b)， 
{X/c，Y/c，Y/c)} 和 {X/Z，Y/2Z}。 第 三 个 蔡 换 比 前 两 个 更 一 般 化 ， 因 为 前 两 个 替换 中 XX 
AY 的 替换 均 与 Z 的 相同 ， 只 不 过 对 其 取 值 有 了 更 多 的 限制 。 < 

替换 o 是 表达 式 e! Me 的 最 广 合 一 算 子 (most general unifier, MGU), WEWE: 

。o 是 两 个 表达 式 的 合 一 算 子 ; 

。 如 果 存 在 另 一 个 替换 是 ec: 和 ez 的 合 一 算 子 ， 那 么 对 于 所 有 的 表达 式 es e 一 定 

是 eo 的 一 个 实例 。 

如 果 表 达 式 e 和 表达 式 e 仅 是 变量 名 字 不 同 ， 则 表达 式 e 是 表达 式 e 的 一 个 换 名 
(Crenaming) 。 此 时 ， 它 们 相互 为 对 方 的 一 个 实例 。 

如 果 两 个 表达 式 有 一 个 合 一 算 子 ， 则 它们 至 少 有 一 个 MGU。 将 不 同 的 MGU 应 用 到 
一 个 表达 式 后 得 到 的 表达 式 相互 间 均 为 换 名 。 也 就 是 说 ， 如 果 ec Ao WERKA e, Me. 
的 MGU, 那么 ec 是 eic HRA. 

【 例 12-17〗 (X/Z, Y/Z}#{Z/X. Y/X} ME p(X. YM p(Z, ZW MGU, MAE 
们 到 表达 式 p(X，Y) 得 到 的 结果 

PCX.Y){X/Z,Y/Z} = p(Z,2) 

PCX.Y){Z/X.,Y/X} = p(X,X) 
彼此 互 为 换 名 。 E 


12.4.1 带 变量 的 自 底 向 上 过 程 


通过 使 用 子 句 的 基 实 例 ， 命 题 的 自 底 向 上 证 明 过 程 能 够 扩展 应 用 到 Datalog 中 。 子 句 
cc 

常量。 如 果 在 知识 库 或 查询 中 没有 常量 ， 则 需要 创建 一 个 。 [507] 

【 例 12-18] 设 知识 库 如 下 : 

qla) 

qihb) 

rla) 

s(W)e-r(W) 

pY) qX) AY) 

所 有 的 基 实 例 构 成 的 集合 如 下 : 


glu) 
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q(b) 

rla) 

s(a)~r(a) 

s(b)<r(b) 

pla,a)<qla) Asla) 

p(a,b)<q(a) A sb) 

p(b,a)<q(b) A sla) 

p(b,b)<q(b) A s(b) 

5. 2. 2 节 命 题 的 自 底 向 上 的 证 明 过 程 能 够 用 来 导出 基 实 例 g(a), g(b), r(a)，s(a)， 
Pla，a) 和 pl(b5，a)， 它 们 都 是 逻辑 结论 。 < 

【 例 12-19) 设 知识 库 如 下 : 

p(X,Y) 

g~p(w,w) 

自 底 向 上 的 证 明 过 程 必须 创建 一 个 新 的 常量 符号 ， 设 为 <。 此 时 所 有 的 基 实 例如 下 : 

plc,c) 

gplcs,c) 

命题 的 自 底 向 上 证 明 过 程 将 导出 pl(c，c) 和 g。 

如 果 有 查询 ask pl(a，d)， 基 实例 集合 会 做 相应 改变 来 反映 出 这 些 常 量 。 < 

应 用 于 知识 库 的 自 底 向 上 证 明 过 程 是 可 靠 的 ， 因 为 每 一 个 规则 的 每 一 个 实例 在 每 一 个 
模型 下 均 为 真 。 这 个 过 程 本 质 上 与 无 变量 的 情况 相同 ， 不 过 它 使 用 了 子 句 的 基 实 例 集合 ， 
而 这 些 子 句 均 定 义 为 真 。 

这 个 过 程 对 于 基 原 子 也 是 完备 的 。 也 就 是 说 ， 如 果 基 原子 是 知识 库 的 一 个 结论 ， 则 该 
结论 终 会 被 导出 。 为 证 明 这 一 点 ， 与 命题 的 情形 一 样 ， 我 们 构建 一 个 特定 的 通用 模型 。 一 
个 模型 必须 明确 常量 的 指 代 。 一 个 Herbrand 解释 是 一 个 解释 ， 其 中 的 域 是 象征 性 的 且 由 
语言 中 的 所 有 常量 组 成 。 如 果 其 中 没有 常量 则 创建 一 个 个 体 。 在 Herbrand 解释 中 ， 每 一 
个 常量 均 指示 其 自身 。 

考虑 一 个 Herbrand 解释 ， 其 中 关系 的 基 实 例 为 真 ， 而 这 些 实例 可 通过 一 个 合适 的 选 
择 规 则 最 终 由 自 底 向 上 的 过 程 导出 。 显 然 ， 这 个 Herbrand 解释 是 给 定 的 规则 的 一 个 模型 。 
正如 无 变量 的 情形 ， 它 是 一 个 最 小 模型 (minimal model) ， 因 为 在 所 有 的 模型 中 它 有 最 少 
的 原子 。 如 果 对 于 基 原 子 5 有 天 了 BFS8， 则 g 在 最 小 模型 中 为 真 ， 从 而 可 最 终 被 导出 。 

【 例 12-20] 考虑 图 12-2 中 的 子 句 。 自 底 向 上 的 证 明 过 程 可 立即 导出 imxm_west 的 每 
一 个 已 作为 事实 给 出 的 实例 。 然 后 你 可 以 添加 imm_east FA): 

imm_east(r103,r101) 

imm_east(7105,7r103) 

imm_east(71107 ,r105) 

imm_east(71109,7r107) 

imm_east(r111,7r109) 

imm_east(r129,r131) 

imm_east(r127,1r129) 

imm_east(r125,7r127) 

下 一 步 ， 下 面 的 next_door 关系 可 加 入 结论 集合 中 ， 包 括 : 
next_door(r101,7r103) 

next_door(r103,r101) 
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two_door_east 关系 可 被 加 入 结论 集合 中 ， 包 括 : 
two_door_east(r105,r101) 
two_door_east(r107 ,r103) 


最 后 ， 随 后 的 west 关系 可 被 加 入 结论 集合 中 。 a 


12.4.2 ” 带 变量 的 确定 性 归结 


通过 允许 在 导出 过 程 中 使 用 规则 实例 ， 可 扩展 命题 的 自 顶 向 下 证 明 过 程 以 处 理 带 变量 
的 情形 。 

—/+\— fit REF A (generalized answer clause) 具 有 下 面 的 形式 : 

yes(tiy sty) 4a; Naz Ass Aan 
Herp, «+, t BUM, a, +, a, 为 原子 。yes 的 使 用 使 得 解答 抽取 (answer extraction) 
成 为 可 能 : 确定 查询 变量 的 哪些 实例 是 知识 库 的 逻辑 结论 。 

一 开始 ， 查 询 9 的 一 般 解 答 子 句 是 : 

yes(V yy Vi)<q 
HV, e, Vi 是 出 现在 9 中 的 变量 。 直 观 的 ， 上 述 子 句 意味 着 如 果 对 应 的 查询 的 实例 
为 真 ， 则 yes(V,, s VORE. 

证 明 过 程 维 护 了 一 个 当前 的 一 般 解 答 子 句 。 

在 每 一 个 阶段 ， 算 法 在 一 般 解 答 子 句 的 体 中 选择 一 个 原子 a;:。 然 后 在 知识 库 中 选择 一 
个 头 为 Ci 的 子 句 。 一 般 解 答 子 句 yes(ty, ty, thay Naz Ae Nam 在 ai 上 使 用 选中 的 
子 句 

avb, Av Ab, 

(其 中 ，a; 和 a 有 最 广 合 一 算 子 c) 的 SLD 归结 是 解答 子 句 : 
(Cyestiy ste <a, A A aim Abi A Abp Naini Ao Nando 
其 中 在 选中 的 子 句 的 体 上 的 a; 在 解答 子 句 中 已 被 蔡 换 ， 且 MGU 也 应 用 于 整个 解答 子 句 。 
一 个 SLD 推导 是 一 般 解 答 子 句 的 序列 Yos Nis ts Me AP: 
。 y 是 对 应 于 原始 查询 的 解答 子 句 。 如 果 查 询 为 且 带 有 自由 变量 w 1s Vi» W 
最 初 的 一 般 解 答 子 句 yo A: 
yes(V, VD)<q 

。 通过 在 7;_; 的 体 中 选择 一 个 原子 w 来 得 到 ys 在 知识 库 中 选择 一 个 子 句 ab AeA 
b, 的 副本 ， 该 子 句 的 头 a 与 a; 一 致 ; 使 用 体 b Av Nb, 替换 ais 然后 将 合 一 算 子 应 
用 于 整个 解答 子 句 中 。 

这 一 过 程 与 命题 的 自 顶 向 下 证 明 过 程 的 主要 区 别 在 于 ， 对 于 带 变 量 的 子 句 ， 证 明 过 程 
必须 从 知识 库 复制 子 句 的 副本 。 在 副本 中 重新 命名 了 子 句 中 的 变量 。 这 样 做 不 仅 是 为 了 消 
解 变量 名 字 间 的 冲突 ， 同 时 也 因为 一 个 证 明 过 程 可 能 使 用 一 个 子 句 的 不 同 实例 。 

。 n 是 一 个 解答 。 也 就 是 说 ， 它 有 如 下 的 形式 : 

yest s**t yt, i 

当 上 面 的 导出 发 生 时 ， 算 法 返回 解答 : 

Vi =t set, V= tk 

请 注意 该 解答 是 如 何 得 到 的 ; ves 的 论 元 保存 了 原始 查询 中 的 变量 实例 的 轨迹 ， 该 轨 
迹 通 向 一 个 成 功 的 证 明 。 

一 个 非 确 定性 的 过 程 通过 图 12-3 所 示 的 发 现 SLD 推导 的 算法 回答 了 查询 。 这 是 一 个 
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非 确 定性 的 过 程 ， 因 为 所 有 的 能 通过 合适 的 选择 找到 的 推导 都 不 会 失败 。 如 果 所 有 的 选择 
都 失败 了 ， 则 算法 也 会 失败 ， 此 时 不 会 有 导出 结果 。 选 择 使 用 搜索 来 实现 。 该 算法 假设 
unify (ai，a) 返 回 一 个 ar Ma 的 MGU( 如 果 存 在 )， 或 者 是 上 (如果 两 者 不 合 一 ) 。 合 一 的 
定义 在 下 一 节 给 出 。 


l: non-deterministic procedure FODCDeductionTD( KB. q) 
Inputs 
KB; 一 个 限定 子 句 的 集合 
查询 9; 带 有 变量 Wi ，…，V'， 和 需要 证 明 的 原子 集合 
Output 
HMO, WR KB EG, 若 无 此 替换 则 证 明 失 败 
Local 
G 是 一 个 一 般 解 答 子 句 
设 G 为 一 个 一 般 解答 子 句 yes(Vi, +, Vi)<g 
while G 不 是 一 个 解答 do 
假设 G 为 yes (tiv > ta, Na, Ao Aan 
在 GG 的 体 中 选择 原子 a; 
在 知识 库 KB HTA aeb, 入 … Ab, 
将 子 句 aeb A Ab, 中 的 变量 改名 
将 合 一 算 子 unify(a:，ua) 设 为 a。 如 果 没 有 合 一 算 子 则 返回 | 
设 G FB AF A Cyes(t,. oh, ty ear Ae Aam Ab Ao Ab, Aas A Nando | 
return V, =; 1. Vi=the HAG H yesli, oe, 4) 





图 12-3 自 顶 向 下 限定 子 句 证 明 过 程 
LA 12-21] 考虑 图 12-2 中 的 知识 库 和 如 下 查询 : 


ask two_doors_east(R,r107) 

图 12-4 说 明了 一 个 成 功 的 导出 过 程 且 得 到 的 解答 为 R=r111, 

请 注意 上 述 导 出 过 程 使 用 了 如 下 规 
则 的 两 个 实例 : 

imm_east(E,W)<-imm_west(W ,E) 

其 中 一 个 实例 是 用 111 FRE. A 
一 个 实例 是 用 r109 替换 E. 

有 些 选择 归结 的 子 句 相互 对 立 ， 可 
能 导致 一 个 无 法 完成 的 部 分 推导 。 < 


























yes(R)<-two_doors_east(R, r107) 

归结 ; two_doors_east(E,, W,)=- | 
imm_east(E,, M,) A imm_east(M,, W,) 

替换 ;， (E,/R, W,/r107} 

yes(R)+-imm_east(R,» M,) Aimm_east(M,,. r107) 
选择 最 左边 的 合 取 项 
Há: imm_east(E:, W.)+-imm_west(W,, FE,) 
替换 : (E,/R. W/M} 

yes(R)+imm_west(M,, R) Aimm_east(M,, r107) 


合 一 选择 最 左边 的 合 取 项 
前 面 的 算法 假设 我 们 能 够 找到 两 个 归结 : imm_west(r109. r111) 


ft: (M,/r109, R/r111} 
yes(r111)+-imm_east(r109, r107) 

归结 : imm_east(E,, Wy)<-imm_west(W,, Es) 

替换 : (E,/r109, W,/r107} 
yes(r111)+-imm_west(r107, r109) 

归结 : tmm_west(r107, r109) 

FR. (} 
yes(rll1)<— 


原子 的 最 广 合 一 算 子 。 合 一 问题 的 含义 
A: 给 定 两 个 原子 ,确定 它们 是 否 是 合 
一 的 ; 如 果 是 合 一 的 ， 则 返回 它们 的 一 
个 MGU. 

求解 合 一 问题 的 算法 在 图 12-5 中 给 
出 。 巨 是 意味 着 合 一 的 等 价 陈述 的 集合 ， 
S 是 一 个 替换 的 正确 形式 的 等 价 集合 。 图 12-4 查询 ask two_doors_east(R，r107) 的 导出 过 程 
在 这 个 算法 中 ， 如 果 xz/y 是 S 中 的 一 个 
替换 ， 那么 通过 替换 ， xz 作为 变量 不 会 出 现在 S ME 中 的 任何 地 方 。 在 第 20 行 , x My 
必须 有 相同 的 谓词 且 必 须 有 相同 数量 的 论 元 ; 否则 ， 同 一 问题 就 无 法 求解 。 
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l: procedure Uni fy(t,, ts) 

2; Inputs 

3: hy te: 原子 

4, Output 

5: t A t 的 最 广 合 一 算 子 : 如 果 不 存 在 则 返回 上 
6: Local 

7 E: 等 价 陈述 的 集合 

8: S: 替换 

9; E={t,=t,) 

10; S=(} 

ll; while EA¥(} do 

12; A E ede It BR 2 = y 

13; if y Gx 不 完全 相同 then 

14: 让 过 是 一 个 变量 then 

15; Hi ERS 中 的 所 有 工 替换 为 y 
16: S=-{x/y}US 

17; else if y 是 一 个 变量 then 

18; HEMS 中 的 所 有 > 替换 为 工 
19; S<-{y/x} US 

20; else if z Zi f (xy, "s ez JHA y Ef Or, o> y,) then 
21; EEU {25yr ts Ln = ynt} 
22: else 





"A 23s return | 
24; return S 


图 12-5 Datalog 中 求解 合 一 问题 的 算法 


【 例 12-22) 假设 我 们 想 求解 pX, Y, YM pl(a，Z，65) 的 合 一 算 子 。 一 开始 , EW 
{p(X，Y， 了 7 了 ) 二 pla，Z，5))。 在 while 循环 的 第 一 次 运行 中 ，E 变 成 了 {X 一 wa，Y 一 QZ， 
Y= 二 6) 。 假 设 下 一 步 选中 了 XX 二 a。 那 么 S 变 成 了 {X/a}, EA(Y=Z, Y=b}. ik F— 
步 选中 Y= 二 Z。 那 么 S 和 EE 中 的 了 就 替换 为 Z。S 成 为 {X/a，Y/2Z}， 而 玉成 为 {(Z 二 6b}。 
最 后 选中 的 是 Z 一 5， 并 使 用 0 替换 Z，S 就 成 为 {(X/a，Y/b，2Z/b}，E 就 成 为 空 集合 。 蔡 
fe {X/a. Y/b, Z/b) wR HY MGU, < 


12.5 函数 符号 


对 于 Datalog 系统 中 的 推理 所 涉及 的 每 一 个 体 ， 均 需要 一 个 用 常量 表示 的 名 字 。 通 
常 ， 使 用 个 体 组 件 而 不 是 为 每 一 个 体 分 配 一 个 单独 的 常量 来 识别 个 体 更 为 简单 。 

【 例 12-23) 在 许多 问题 域 中 ， 你 希望 能 够 引用 一 段 时 间 ， 并 将 其 作为 一 个 个 体 。 你 
可 能 会 说 某 一 课程 的 上 课时 间 是 11:30am。 你 并 不 想 为 每 一 个 可 能 的 时 间 分 配 一 个 常量 。 
使 用 几 点 几 分 来 定义 时 间 会 更 好 。 类 似 的 ， 你 可 能 想 推理 提 到 了 特定 日 期 的 事实 。 你 也 不 
想 为 每 一 个 日 期 设置 一 个 常量 。 而 使 用 年 、 月 、 日 来 定义 日 期 是 一 个 更 容易 的 方法 。 < 

使 用 常量 来 命名 每 一 个 个 体 就 意味 着 知识 库 仅 能 表示 有 限 的 个 体 ， 且 一 旦 知识 库 设 计 
完成 后 ， 其 中 的 个 体 数 也 就 确定 了 。 然 而 ， 存 在 着 许多 的 情形 ， 在 该 情形 中 你 想 在 一 个 无 
限 的 个 体 集 合 中 进行 推理 。 

【 例 12-24) 假设 你 想 建造 一 个 系统 ， 该 系统 接受 英语 的 提问 ， 并 通过 访问 一 个 在 线 
的 数据 库 来 回答 该 提问 。 此 时 ， 每 一 句子 都 被 认为 是 一 个 个 体 。 你 不 会 想 为 每 一 个 句子 指 
定 一 个 名 字 ， 因 为 英语 句子 数量 太 多 ， 不 可 能 逐一 为 它们 命名 。 为 单词 命名 ,然后 使 用 单 
词 在 句子 中 出 现 的 顺序 来 明确 说 明 一 个 句子 可 能 更 好 。 这 个 方法 可 能 更 为 实用 ， 因 为 需要 
命名 的 单词 数 远 少 于 需要 命名 的 句子 数 ， 且 每 一 个 单词 都 有 其 自然 的 命名 。 你 可 能 想 使 用 
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单词 中 的 字母 或 者 单词 的 构成 部 分 来 明确 说 明 单 词 。 a 
【 例 12-25] 你 可 能 想 在 学 生 列表 中 进行 推理 。 例 如 ， 你 可 能 需要 导出 一 个 班级 的 学 
生 的 平均 成 绩 。 一 个 班级 学 生 的 列表 是 一 个 个 体 ， 它 有 属性 ， 如 列表 的 长 度 和 它 的 第 七 个 
元 素 等 。 尽 管 为 每 一 列表 命名 是 可 能 的 ， 但 这 样 做 却 非 常 不 方便 。 使 用 列表 的 元 素来 描述 
列表 是 一 个 更 好 的 方法 。 a 
函数 符号 允许 你 间接 地 描述 个 体 。 与 使 用 常量 来 描述 个 体 不 同 ， 一 个 个 体 可 使 用 其 他 
个 体 来 描述 。 
在 句法 构成 上 ， 一 个 函数 符号 (function symbol) 是 一 个 以 小 写字 母 开 头 的 单词 。 我 们 
扩展 项 的 定义 ， 因 此 项 (term) 可 以 是 变量 、 常 量 或 具有 形式 Fa ，…， NS, 其 中 f 
是 一 个 函数 符号 , 点 为 项 。 除 扩展 了 项 的 定义 之 外 ， 语 言 没 有 其 他 变化 。 
项 仅 出 现在 谓词 符号 中 。 你 不 会 写 出 逻辑 蕴含 一 个 项 的 子 句 。 然 而 ， 你 可 能 会 写 出 包 
含 了 原子 的 子 句 ， 其 中 在 原子 中 使 用 函数 符号 作为 描述 个 体 的 一 种 方式 。 
为 反映 出 这 一 新 句法 ， 必 须 改动 语义 。 此 时 ， 仅 需 作出 的 改动 是 $$ 的 定义 。 我 们 扩展 
$ 使 其 成 为 从 每 一 个 常量 到 DD 的 每 一 个 元 素 及 从 每 一 个 n 元 函数 符号 到 从 D" 映射 到 DD 的 
函数 的 上 映射。 因此，$ 确定 了 每 一 函数 符号 所 指示 的 上 映射。 特别 的 ，#$ 明确 了 每 一 个 基 项 
所 指 代 的 个 体 。 
由 带 有 函数 符号 的 子 句 组 成 的 知识 库 能 够 计算 任何 可 计算 的 函数 。 因 此 ， 知 识 库 可 解 
释 为 一 个 程序 ， 称 为 逻辑 程序 (logic program). 
这 个 语言 上 的 微小 扩展 具有 重要 的 影响 。 仅 使 用 一 个 函数 符号 和 一 个 常量 ， 即 可 引出 
无 限 的 不 同 的 项 和 无 限 的 不 同 的 原子 。 这 些 无 限 的 项 可 用 来 描述 无 限 的 个 体 。 
【 例 12-26) 假设 你 想 定义 一 天 内 的 时 间 ， 正 如 例 12-23 中 的 那样 。 你 可 以 使 用 函数 
符号 am， 从 而 axz( 互 ，M) 表 示 时 间 H:Ma.m., ith H Æ 1~12 的 整数 ，M 是 0 一 59 的 
整数 。 例 如 ，am(10，38) 表 示 时 间 是 10:38 a.m. ; am 表示 一 个 将 一 对 整数 映射 为 时 间 的 
函数 。 类 似 的 ， 你 可 以 定义 符号 pm 来 表示 午后 的 时 间 。 
使 用 函数 符号 的 唯一 方式 是 编写 使 用 函数 符号 来 定义 关系 的 子 句 。 这 里 没有 定义 函数 
am 的 意图 ; 计算 机 中 的 时 间 概 念 并 不 比 其 在 人 的 头脑 中 的 概念 多 。 
为 使 用 函数 符号 ， 你 可 以 编写 对 函数 符号 的 论 元 有 量化 定义 的 子 句 。 例 如 ， 下 面 定 义 
了 关系 be fore(T, ， T2), 如 果 一 天 中 的 时 间 Tı 在 时 间 Tz 之 前 ， 则 该 关系 为 真 : 
be fore(am(H1,M1),pm(H2,M2)) ; 
be fore (am(12,M1) ,am( H2,M2))< 
H2<12 

be fore (am( H1,M1) ,am( H2,M2))< 
H1<H2A 
H2<12 

be fore (am(H,M1) ,am(H,M2))< 
M1<M2 

be fore (pm(12,M1), pm(H2,M2))< 
H2<12 

be fore ( pm(H1,M1),pmCH2,M2))<— 
H1<H2A 
H2<12 

be fore ( pm(H,M1),pm(H,M2))< 
M1<M2 
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这 个 定义 复杂 化 了 ， 因 为 上 午 和 下 午 均 从 12 点 开始 ， 然 后 是 1 点， 因此， 举例 来 说 ， 
12:37 a.m. 在 1:12 a.m. 之 前 。 < 
函数 符号 用 来 构建 数据 结构 。 l 
【 例 12-27) 树 是 一 个 有 用 的 数据 结构 。 你 可 以 使 用 树 为 自然 语言 处 理 系 统 建立 一 个 
句子 的 句法 表示 。 我 们 可 以 决定 一 个 有 标号 的 树 具有 node(N，LT，RT) 的 形式 或 者 具有 
leaf OHER. MT, node 是 树 中 具有 一 个 名 字 、 一 个 左 子 树 、 一 个 右 子 树 节 点 的 函 
KR. RAS leaf 表示 树 中 一 个 节点 的 函数 。 
如 果 工 是 树 工 中 的 一 个 叶子 节点 的 标签 ， 则 关系 atleaf(L. DAR. CALLA: 
at_leaf(L,leaf(L)) 
at leaf (L,node(N,LT,RT))< 
at_leaf(L,LT) 
at_lea f (L,node(N,LT,RT))=< 
at_leaf(L,RT) _ 
这 是 一 个 结构 的 递归 程序 的 例子 。 这 些 规则 涵盖 了 表示 树 的 结构 的 所 有 情形 。 
MEL ERT 的 内 部 节点 的 标签 ， 则 关系 in_tree(L，T) 为 真 ， 其 定义 如 下 : 
in_tree(L,node(L,LT,RT)) 
in_tree(L,node(N,LT,RT))< 
in_tree(L,LT) 
in_tree(L,node(N,LT,RT))< 
in_tree(L,RT) < 


KG) 12-28] 你 可 以 在 列表 (list) 上 推理 而 不 需要 内 置 任何 列表 的 概念 。 一 个 列表 是 一 “ 


个 空 表 或 是 一 个 元 素 且 后 面 是 一 个 列表 。 你 可 以 设置 一 个 常量 来 表示 空 列表 。 假 设 你 使 用 
常量 nil 来 表示 一 个 空 列表 ， 和 那么 你 可 以 选择 一 个 函数 符号 ， 比 如 cons Hd, TH, FRE 
如 下 的 解释 : 它 表 示 一 个 列表 ， 其 第 一 个 元 素 是 Ha， 剩 余 的 表 是 TI. AAS UR a, b, 
c 的 列表 可 表示 为 : 

cons(a,cons(b,cons(c ,nil))) 

为 使 用 列表 ， 必 须 编写 使 用 对 应 列表 的 谓词 。 例如， 关系 append(X, Y, Z)——E 
在 XX、Y 和 2Z 是 列表 时 为 真 且 结 果 为 Z 中 包含 的 元 素 为 X 中 的 元 素 后 面 跟着 Z 中 的 元 
EJ 可 递归 地 定义 如 下 : 

append(nil,L,L) 

append (cons( Hd, X) Y ,cons(Hd,Z))<— 

append(X,Y,Z) 
这 里 的 cons Ail nil 没有 任何 特殊 性 ; 我 们 可 以 使 用 foo 和 bar 来 表示 它们 。 a 


带 函 数 符 号 的 证 明 过 程 


对 于 函数 符号 的 情形 ， 带 变量 的 证 明 过 程 继续 保留 。 两 种 证 明 过 程 的 主要 区 别 在 于 前 
者 扩展 了 项 的 类 别 以 包含 函数 符号 。 

函数 符号 的 使 用 涉及 无 限 多 的 项 。 这 就 意味 着 在 子 句 上 向 前 推进 推理 链 时 ， 我 们 不 得 
不 保证 为 选择 子 句 而 设置 的 标准 是 公平 的 。 

【 例 12-29) 为 说 明 公平 的 重要 性 ， 考 虑 下 面 作为 一 个 更 大 程序 的 一 部 分 的 子 句 : 

num(0) 

num(s(N))<-num(N) 
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一 个 不 公平 的 策略 会 在 最 初 选 择 第 一 个 子 句 来 进行 推理 ， 而 对 于 后 续 的 推理 总 是 选择 
第 二 个 子 句 。 第 二 个 子 句 总 能 用 来 导出 一 个 新 的 结论 。 这 个 策略 从 不 会 选择 其 他 的 子 句 ， 
也 因此 从 不 能 导出 其 他 子 句 的 结论 。 l | 


Bez RS — Breet 


一 阶 谓词 演算 (first-order predicate calculus) 是 扩展 了 命题 演算 以 包括 带 有 函数 符号 和 
慑 辑 变 量 的 原子 的 逻辑 。 所 有 的 逻辑 变量 必须 使 用 明确 的 “全 称 "(Y) 和 ”存在 ?( 习 ) 量 词 。 
一 阶 谓词 演算 的 语义 就 像 本 章 的 逻辑 程序 的 语义 一 样 ， 但 有 更 丰富 的 运算 符 。 

逻辑 程序 的 语言 形成 了 一 阶 谓词 演算 的 语 用 子 集 ， 而 一 阶 谓词 已 经 得 到 了 发 展 ， 因 为 
它 对 于 许多 任务 都 是 有 用 的 。 一 阶 谓词 演算 可 被 看 做 是 为 逻辑 程序 增加 了 析 取 和 衣 确 量化 
的 语言 。 

一 阶 逻 辑 之 所 以 是 一 阶 的 ， 是 因为 它 允 许 对 域 中 的 个 体 给 予 量 化 。 一 阶 逻 辑 既 不 允许 
将 谓词 作为 变量 也 不 允许 对 谓词 进行 量化 。 

二 阶 逻辑 (second-order logic) 允许 对 一 阶 关 系 和 谓词 进行 量化 ， 其 论 元 为 一 阶 关 系 。 
这 些 是 二 阶 关 系 。 例如， 下 面 的 二 阶 逻 辑 公式 ` 

YR symmetric (R) CV XYY R(X,Y)>R(Y,X)) 
定义 了 二 阶 关 系 symmetric， 如 果 其 论 元 是 对 称 关 系 则 其 为 真 。 

二 阶 逻 辑 对 于 许多 应 用 来 说 是 必需 的 ， 因 为 一 阶 逻 辑 不 能 够 定义 传递 闭 包 。 例 如 ， 假 
设 你 想 使 before 作为 next 关系 的 传递 闭 包 关系 ， 其 中 nert(X, (XI)HE. HR next 的 
含义 是 “下 一 毫秒 ”而 before 表示 “之 前 ”， 则 自然 的 一 阶 定义 可 能 如 下 : 

VXVY before(X,Y)—CY=s(X) V before(s(X)sY)) (12. 1) 

这 个 表达 式 没有 准确 地 捕获 上 述 定 义 ， 因 为 如 下 的 例子 

VXVY before(XY)—> dW Y=s(W) 

在 迎 辑 上 并 不 服从 式 (12.1)， 因 为 有 式 (12.1) 的 非 标准 模型 中 的 YY 表示 了 无 限 。 为 捕 
获 上 述 传递 闭 包 ， 你 需要 一 个 描述 了 before 是 满足 上 述 定义 的 最 小 谓词 的 公式 。 这 可 用 二 
Mt ee RR. 

HAAN MC(recursively enumerable) 的 ， 这 就 意味 着 存在 一 个 可 靠 、 完 备 的 
证 明 过 程 ， 从 而 每 一 个 为 真 的 语句 均 可 在 图 灵机 上 使 用 一 个 可 靠 的 证 明 过 程 得 到 证 明 。 二 
阶 逻 辑 不 是 递归 可 数 的 ， 因 此 不 存在 一 个 可 在 图 灵机 上 实现 的 可 靠 、 完 备 的 证 明 过 程 。 


这 个 永远 忽略 一 些 子 句 的 问题 被 称 为 包 饭 (starvation)。 一 个 公平 的 选择 标准 是 任何 
可 用 的 子 句 均 有 平等 的 被 选择 机 会 。 自 底 向 上 的 证 明 过 程 只 有 在 公平 选择 的 条 件 下 才 是 完 
备 的 。 . 
自 顶 向 下 证 明 过 程 与 Datalog 中 的 相同 ( 见 图 12-3)。 合 一 问题 变 得 更 加 复杂 ， 因 为 必 
须 递 归 地 深入 项 的 结构 中 。 在 合 一 算法 中 有 一 处 改动 : 变量 X 与 项 上 不 合 一 ， 其 中 t 中 出 
WTX 且 t 不 为 X。 对 这 一 条 件 的 检查 被 称 为 出 现 检查 (occurs check)。 如 果 没 有 使 用 出 
现 检 查 且 人 允许 一 个 变量 与 在 其 中 出 现 了 该 变量 的 项 相合 一 ， 则 证 明 过 程 就 不 再 可 靠 ， 下 面 
这 个 例子 说 明了 这 一 问题 。 

【 例 12-30] 考虑 仅 有 一 个 子 句 的 知识 库 : 

lt(X,s(X)) 

假设 特定 的 解释 是 在 整数 域 中 ， 其 中 上 心 的 含义 是 “小 于 ?而 (NRR X 大 一 的 那个 
整数 。 查 询 ask /Li(Y，Y) 应 该 失败 ， 因 为 在 我 们 特定 的 解释 中 子 句 为 假 ( 没 有 哪个 数 小 于 


第 12 章 ”个体 与 关系 


HAS). Rill, WRX 和 sx(X) 能 够 合 一 ， 则 该 查询 将 成 功 。 此 时 ， 证 明 过 程 将 是 不 可 靠 
的 ， 因 为 其 能 够 导出 在 公理 模型 中 为 假 的 结论 。 
图 12-5 中 的 合 一 算法 经 过 一 个 修改 可 用 于 找 出 两 个 带 函 数 符号 的 MGU 。 如 果 算 法 选 
择 了 一 个 等 价 的 关系 z 一 y， 其 中 工 是 一 个 变量 而 ? 是 一 个 含有 xz 但 不 为 z 的 项 ， 则 该 算 
法 应 返回 | 。 最 后 一 步 是 出 现 检查 。 有 时 候 会 略 去 出 现 检查 (如 Prolog)， 因 为 这 样 可 使 证 
明 过 程 更 加 高 效 ， 即 使 这 样 会 使 证 明 过 程 变 得 不 可 靠 。 


下 面 的 例子 说 明了 带 有 函数 符号 的 SLD 归结 的 详细 内 容 。 
【 例 12-31] 考虑 下 面 的 子 句 : 
append (c(A,X),Y,c(A,Z)) + 
append(X,Y,Z) 
append(nil,Z,Z) 


现在 先 不 考虑 上 述 子 句 的 含义 。 正 像 计算 机 那样 ， 仅 把 它 看 做 是 一 一 个 符号 操纵 问题 。 
考虑 下 面 的 查询 : 


ask append (F,c(L,nil) cllclicls,c(t, nil))))) 
下 面 是 导出 过 程 : 
yes(F,L)<-append(F,c(L,nil)yc(lrc(inc(ssc(t ,nil))))) 
归结 ; append(c(A;.X,),¥: (A; 21))<append( Xi Yi 2 ) 
RR: (F/d, X) Y, /cCL nil) ,Ay/1,Z, /eCisc(sse(tsnil)))} 
yes(c(l,X;),L)<append(X, .c(Lynil) »cCGiye(syc(tynil)))) 
归结 : append(c(Az »X2)+Y2.c(A2+Z2))<append( Xz ,Y2+Z2) 
替换 : {Xı/c(i Xa) ,Ys /cL ,nil) Az/i,Z2/eCsycCtynil))} 
yes(c(l,cUi,Xz)),L)<append(X, .c(L, nil) »c(ssc(t,nil))) 
H # append (c(A; .X3),Y3+c(Ay,Z;))~append(X; ,Ys 2 ) 
BR. {X:/cls Xi) ,Ys /cCLsnil) «As /s+Z3/c(tynil)} 
yes(c(l,cGisc(s:X3))) .L)<append(X; ctL nil) ,c(t,nil)) 
此 时 ， 两 个 子 句 均 可 使 用 。 选 择 第 一 个 子 句 则 有 : 
归结 : append(cCAs ,Ki) Y; clA 2)) append( XsY 2) 
HR. {Xs /clty DY /cCLenil) A/t, Zs /nil} 
yes(c(l,cCi,c(s,X3))).L)<append(X, clL snil) snit) 


此 时 ， 没 有 一 个 子 句 的 头 可 与 一 般 解答 子 句 体 中 的 原子 合 一 


选择 第 二 个 子 句 则 有 : 

H4: append(nil, Z;, Z;). 

eM. {Zs/celt, nil), X3/nil, L/t} 
yes(c(l, cli, cls, nil))), t) 


此 时 ， 证 明成 功 ， 得 到 的 解答 是 F=c(l, ci, cls, nil))), L=t. 


在 本 章 的 后 面部 分 ， 我们 使 用 Prolog 中 的 “句法 糖衣 ”表示 法 来 表示 列表 。 其 中 空 表 
一 个 元 素 E 和 剩余 列表 RR 的 表 ( 之 前 记 为 cons( 玉 ，R)) 记 为 [EIR]。 有 
一 个 记 法 上 的 简化 : [X|[YJJ 记 为 [X,Y]j， 其 中 Y 可 为 一 个 序列 的 值 。 例 如 ，[a|[jj 记 


nil 记 为 []。 带 有 第 


ALa], [b| [a|[0]jJ 记 为 [5，aj; [a|Lblcjj 记 为 La, ble]. 


【 例 12-32] 


使 用 上 述 的 列表 表示 法 ， 上 一 例子 中 的 append 可 记 为 : 


append([A|X].Y,[A|Z)<— 
append(X,Y,Z) 
append({J.Z+Z) 
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查询 

ask append(F,[L],[l,i,s,t]) 
有 一 个 解答 FL, i, sl], 工 = 上 t。 证 明 过 程 与 上 一 例子 的 证 明 过 程 一 致 。 就 证 明 过 程 而 
言 ， 没 有 任何 变化 ;只 不 过 是 改变 了 函数 符号 和 常量 的 名 字 。 


12.6 在 自然 语言 处 理 中 的 应 用 


自然 语言 处 理 是 一 个 有 意思 的 领域 ， 但 对 于 发 展 和 评估 其 中 的 表示 和 推理 理论 却 是 很 
困难 的 领域 。AI 中 的 所 有 问题 在 这 个 领域 中 都 存在 ; 求解 “自然 语言 问题 "与 求解 “AI 问 
题 "同样 困难 ， 因 为 任何 一 个 领域 均 可 用 自然 语言 来 表达 。 计 算 语 言 学 (computational lin- 
guistics) 领 域 有 丰富 的 技术 和 知识 。 本 书 仅 能 给 出 一 个 概述 。 

研究 自然 语言 处 理 的 理由 至 少 有 如 下 三 个 : 

。 你 希望 计算 机 使 用 用 户 的 术语 与 其 用 户 交流 ; 你 不 能 强迫 用 户 去 学 习 一 门 新 的 语 

言 。 这 对 于 普通 用 户 和 诸如 经 理 与 孩子 (他 们 既 没 有 时 间 也 没有 意愿 去 学 习 一 种 新 
的 交互 技能 ) 等 用 户 来 说 尤其 重要 。 

。 现在 已 经 有 了 一 个 使 用 自然 语言 记录 的 、 能 够 使 用 计算 机 来 访问 的 、 存 有 巨 量 信 
息 的 数据 存储 。 信 息 持 续 地 以 书籍 、 新 闻 、 商 业 和 政府 报告 及 科技 论文 的 形式 产 
生出 来 ， 它 们 中 相当 大 的 部 分 可 以 在 线 访问 。 一 个 需要 大 量 信息 的 系统 必须 能 够 
处 理 自然 语言 ， 以 检索 在 计算 机 上 可 获得 的 大 量 信息 。 

。 在 自然 语言 处 理 中 ， 人 工 智 能 的 许多 问题 都 有 非常 清晰 、 明 确 的 形式 ， 因 此 它 是 
一 个 实验 通用 理论 的 好 领域 。 

自然 语言 处 理 的 发 展 为 开发 自然 语言 与 知识 库 和 自然 语言 翻译 间 的 接口 提供 了 可 能 。 
我 们 在 下 一 节 说 明 如 何 编写 一 个 适用 于 非常 秦 的 领域 的 自然 语言 查询 应 答 系 统 ， 在 这 个 系 
统 中 ， 格 式 化 的 语言 就 够 用 了 ， 且 在 该 语言 中 只 存在 少量 的 歧义 (如 果 有 的 话 ) 。 另 外 一 个 
极端 的 例子 是 浅显 但 范围 宽广 的 系统 ， 如 例 6-16 和 例 7-13 中 的 帮助 系统 。 开 发 一 个 既 有 
深度 又 有 广度 的 可 用 系统 是 困难 的 。 

任何 一 个 自然 语言 理解 理论 都 具有 三 个 重要 的 方面 : 

句法 “句法 描述 了 语言 的 形式 。 通 常 使 用 文法 来 规定 。 自 然 语言 要 比 作为 描述 逻辑 和 
计算 机 程序 的 人 工 语 言 的 形式 语言 更 加 复杂 。 

语义 ”语义 提供 了 语言 的 话语 或 句子 的 含义 。 尽 管 已 有 通用 的 语义 理论 ， 但 当 我 们 为 
一 个 特定 领域 建造 一 个 自然 语言 理解 系统 时 ,我们 会 努力 使 用 最 简单 的 表示 形式 。 例 如 ， 
在 下 面 的 开发 中 ， 知 识 库 中 有 一 个 从 字 到 概念 的 固定 的 映射 关系 ， 该 映射 对 于 许多 领域 来 
说 都 是 不 合适 的 但 却 简化 了 开发 。 

语 用 语 用 解释 了 话语 是 如 何 与 环境 建立 联系 的 。 为 理解 语言 ,一 个 Agent 应 该 考虑 
更 多 而 不 是 仅 考 虑 句子 ; 它 必须 考虑 句子 的 上 下 文 、 环 境 的 状态 、 讲 话 者 和 听众 的 目标 、 
特殊 的 惯例 等 。 

为 理解 这 些 方面 的 区 别 ， 考 虑 下 面 这 些 可 能 出 现在 AI 教科 书 开 头 的 话 : 

。 这 是 一 本 关于 人 工 智 能 的 书籍 。 

。 绿色 青蛙 睡眠 深沉 。 

。 无 色 的 绿色 观念 睡眠 狂暴 。 

。 狂暴 地 睡眠 观念 绿色 无 颜色 。 

第 一 句 出 现在 如 本 书 的 开头 是 合适 的 ， 它 有 很 好 的 句法 、 语 义 和 语 用 。 第 二 句 有 很 好 
的 句法 和 语义 ,但 出 现在 一 本 人 工 智能 书籍 的 开头 则 显得 很 怪异 ; 从 而 它 在 该 上 下 文中 没 
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有 很 好 的 语 用 。 后 面 两 句 由 语言 学 家 Noam Chomsky[1957] 给 出 。 第 三 句 有 很 好 的 句法 ， 
但 其 语义 却 无 意义 。 第 四 名 的 句法 是 错误 的 ; 它 完 全 无 意义 ,无 论 是 句法 上 、 语 义 上 和 语 
用 上 均 是 如 此 。 


在 本 书 中 ， 我们 不 想 全 面 介绍 计算 语言 学 。 关 于 这 方面 的 介绍 请 参考 本 章 最 后 列 出 的 = 


参考 文献 。 
12.6.1 在 上 下 文 无 关 文法 中 使 用 限定 子 句 


本 节 说 明 如 何 使 用 限定 子 句 来 表示 自然 语言 的 句法 和 语义 。 

语言 由 其 合法 的 句子 来 定义 。 句 子 是 符号 的 序列 。 合 法 的 句子 由 文法 来 规定 。 

我 们 的 第 一 个 对 自然 语言 的 近似 是 上 下 文 无 关 文 法 。 一 个 上 下 文 无 关 文 法 (context- 
free grammar) 是 一 组 重 写 规则 (rewrite rule) 的 集合 ,使 用 这 些 规 则 将 非 终 结 (non- 
terminal) 符 号 转换 成 一 个 终结 符号 和 非 终 结 符号 的 序列 。 该 语言 的 句子 是 一 个 根据 重 写 规 
则 生成 的 终结 (terminal) 符 号 的 序列 。 例 如 ， 下 面 的 文法 规则 : 


sentence > noun_ phrase, verb_phrase 
意味 着 一 个 非 终结 符号 sentence( 句 子 ) 可 以 是 一 个 noun_phrase( 名 词 短 语 ) 后 跟 一 个 verb_ 
phrase( 动 词 短 语 )。 符 号 “>” 的 意思 是 “可 重 写 为 “”。 如 果 自 然 语言 的 一 个 句子 被 表示 为 
一 个 字 的 列表 ， 则 该 规则 表示 如 果 一 个 字 的 列表 是 一 个 名 词 短 语 后 跟 一 个 动词 短语 ， 那 么 
这 个 字 的 列表 就 是 一 个 句子 : 

sentence(S)<-noun_phrase(N) ,verb_phrase(V) append(N,V,S) 

为 说 明 “computer” 是 一 个 名 词 ， 你 要 写成 : 

noun([ computer |) 

另 有 一 个 上 下 文 无 关 文 法 规则 的 简单 表示 方法 称 为 限定 子 句 文法 (definite clause 
grammer，DCG) 。 该 文法 使 用 了 限定 子 句 ， 不 需要 明确 的 append。 每 一 个 非 终 结 符号 s 
变 成 一 个 有 两 个 参数 的 谓词 %(Ti ，Tz)， 该 谓词 的 含义 是 列表 T: 是 列表 的 结尾 ， 且 
Ti 中 位 于 T: 之 前 的 字形 成 了 范畴 s 的 字 序列 。 列 表 T 和 T 一 起 构成 由 非 终 结 符号 规定 
的 那 类 字 的 差异 列表 (difference list) ， 因 为 正 是 这 些 差异 构成 了 句法 范畴 。 

【 例 12-33] 在 这 个 表示 方式 下 ， 如 果 列 表 T: 是 列表 T WAR. BT, 中 位 于 T 之 前 的 
所 有 字形 成 了 一 个 名 词 短语 ， 则 noun_phrase(T;, T. AH. T: 为 句子 的 剩余 部 分 。 你 可 认为 
T: 表示 了 列表 中 的 一 个 位 置 ， 而 该 位 置 在 位 置 N 之 后 。 差 异 列表 表示 了 这 两 个 位 置 之 间 的 字 。 

原子 符号 

noun _phrase(( the, student, passed ,the, course, with,a,computer]. 


[passed the, course ,with,a,computer}) 


在 这 个 特定 解释 中 为 真 ， 因 为 “the student” 构 成 了 一 个 名 词 短语 。 < 


文法 规则 


sentence m» noun_phrase,verb_phrase . 
的 含义 是 如 果 在 某 个 T AT 之 间 有 一 个 名 词 短语 ， 且 在 T 和 某 个 T: 之 间 有 一 个 动词 
Wik, WHAT, 与 T: 之 间 有 一 个 句子 : 
sentence 
Ta T, T: 
oS 
noun _ phrase verb_ phrase 


这 个 文法 规则 可 表示 为 如 下 的 子 句 : 
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sentence (Ty 5 Tz ) < 一 
noun_phrase(T,.T;) A 
verb_phrase(T; , T2) 

一 般 的 ， 规 则 


h >b; sbo gre sbn 


的 含义 是 h FA by 后 跟 bz, -cs 最 后 跟 b, 构成 ， 且 可 记 为 下 面 的 限定 子 句 : 


h(To | AP a 
b (To TiD A 
b:(T: T2) A 


LNE RE Tx) 








并 使 用 下 面 的 解释 : 
二 
To Tı To= Ta a 
SSS 
bi b: bn 


其 中 T: 为 新 的 变量 。 
如 果 想 说 非 终结 符号 h 映射 为 终结 符号 三 ，…，t,， 则 可 记 为 : 
ha st, [TLT 
并 解释 为 : 
二 
tist, T 
因此 ， 如 果 TS [is e ta |T2]; MAT, TAR. 


【 例 12-34) 说 明 非 终结 符号 有 可 重 写 为 非 终 结 符号 a 后 跟 非 终结 符号 5， 后 跟 终结 符 


号 c 和 4d， 后 跟 非 终结 符号 e， 后 跟 终 结 符号 f 和 非 终 结 符号 g 的 规则 可 记 为 : 


hi wab,[lc d] elf] g 
且 可 表示 为 
h(To ,Ts)<— 
a(To,Ti) A 
WT; Lesd|Ts DA 
eCT .[f|Ts])A 
g(T;,T;) 
注意 ,转换 T,= 二 [c，d|T,j] 及 T, 二 [fITs] 是 人 为 完成 的 。 


< 


12-6 完成 了 英语 的 一 个 简单 文法 的 公理 化 。 图 12-7 给 出 了 字 的 一 个 简单 字典 及 其 


部 分 语言 ， 该 语言 可 用 图 12-6 中 的 文法 。 
【 例 12-35) 对 于 图 12-6 中 的 文法 和 图 12-7 中 的 字典 ， 下 面 的 查询 


ask noun_phrase((the, student, passed ,the,course,with,a,computer ],R) 
将 返回 


R=([passed,the,course,with,a computer | 


句子 “The student passed the course with a computer. ”有 两 个 不 同 的 解析 ， 一 个 是 使 


用 子 句 的 如 下 实例 : 
verb_phrase([ passed , the, course, with.a,computer ],[_])+- 


verb([ passed ,the,course,with,a,computer |, 
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(the, course, with,a,computer]) A 
noun_phrase((the,course,with,a,computer],(]) A 


pp [LJ],[L]) 


% 一 个 句子 是 一 个 名 词 短语 后 跟 一 个 动词 短语 
sentence(T,, T;:)<— 
noun_phrase(T,, T,) A 
verb_phrase(T,, Tz) 
% 名 词 短语 是 一 个 限定 符 后 跟 修 饰 符 再 跟 一 个 名 词 ， 最 后 跟 一 个 可 选 的 介词 短语 
noun_phrase(T,, T,)< 
det(T,, T,) A 
modifiers(T;, Tz) A 
noun(T,, T;)A 
pe(T;, T) 
Yo 修饰 符 由 可 能 为 空 的 形容 词 序列 组 成 
modi fiers(T, T) 
modifiers(T,, T:)<- 
adjective(T,, TDA 
modi fiers(T,, T:) 
% 可 选 的 介词 短语 或 者 为 空 或 者 为 一 个 介词 后 跟 一 个 名 词 短语 
pplT, T) 
pe(T,, 了: )< 一 
preposition(T,, T,) A 
noun_phrase(T,, T;) 
% 动词 短语 是 一 个 动词 后 跟 一 个 名 词 短 语 和 一 个 可 选 的 介词 短语 
verb _phrase(T,,» T,)< 
verX(T,, Ti A 
noun_phrase(T,, Ta) A 
pp(T:, Ts) 





图 12-6 ”英语 的 一 个 非常 有 限 的 子 集 的 一 个 上 下 文 无 关 文法 
另 一 个 使 用 的 实例 是 : 


verb _phrase([ passed ,the, course, with,a,computer],[ ])<- det(T, T) 
det([a |T], T) 


det([the|T], T) 
noun([ student | T], D 
noun( [course | T]: D) 


verb( (passed , the ,course,with,a, com puter], 

[the course, with,a,computer]) 人 
noun_phrase([ the ,course with sa ,computer | [with .a,computer]) A 
pp (Lwith,a,computer].[}) 

在 第 一 种 情况 中 ,介词 短语 修饰 的 是 名 词 短 语 ( 即 “the 


noun([ computer | Th D 
adjective([ practical | Tl» T3 


course is with a computer”); 在 第 二 种 情况 中 ， 介 词 短 语 修饰 的 verb([Lpassed |T], T) 
是 动词 短语 ( 即 “the course was passed with a computer”) 。 | preposition([ with |T], T) 


12.6.2 增强 文法 图 12-7 ”一 个 简单 的 字典 


一 个 上 下 文 无 关 文 法 不 足以 表达 自然 语言 (如 英语 ) 的 文法 的 复杂 性 。 可 以 添加 两 种 机 
制 使 该 文法 具有 更 强 的 表达 能 力 : 

。 非 终结 符号 的 额外 论 元 。 

。 规则 中 的 任意 条 件 。 

额外 论 元 将 允许 我 们 做 如 下 几 件 事情 : 构建 解析 树 、 表 示 句 子 的 语义 结构 、 增 量 式 地 
建立 表示 了 针对 数据 库 提出 的 问题 的 查询 及 积累 有 关 短 语 一 致 的 信息 (如 数 、 时 态 、 性 和 
人 称 上 的 一 致 ) 。 
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12.6.3 为 非 终结 符号 建立 结构 


你 可 以 为 谓词 增加 一 个 额外 的 论 元 来 表示 一 个 解析 树 、 构 成 形 如 下 面 的 规则 : 
sentence (Ts , T: .s(NP,VP))< 

noun_phrase( To, Ti: NP)A 

verb_phrase(T, TVP) 


其 含义 为 句子 的 语法 树 具 有 形 如 s(NP，VP ) 的 形式 ， 其 中 NP 是 针对 名 词 短 语 的 解 
析 树 ，VP 是 针对 动词 短语 的 解析 树 。 

如 果 你 想 从 句法 分 析 中 得 到 一 些 结 果 ， 而 不 仅 是 判断 句子 是 否 有 合法 的 句法 ， 则 上 述 
形式 就 很 重要 了 。 解 析 树 概念 是 上 述 需 要 的 简单 形式 ， 因 为 它 不 能 充分 表示 句子 的 含义 或 
“深层 结构 ”。 例 如 ， 你 自然 想 识别 出 “Alex 讲授 AI 课程 ?和 "AI 课程 由 Alex 讲授 ”具有 同 
一 含义 ， 区 别 仅 是 分 别 使 用 了 主动 和 被 动 的 语气 。 


12.6.4 封装 的 文本 输出 


在 文法 的 定义 中 没有 要 求 英 语 输入 ， 也 没有 要 求 输出 为 解析 树 。 一 个 带 有 某 句 子 界 限 
意义 的 文法 规则 的 查询 和 一 个 表示 了 该 句子 的 自由 变量 可 以 生成 符合 上 述 意义 的 句子 。 

文法 规则 的 一 个 用 途 是 为 逻辑 项 提供 封装 的 文本 输出 ; 输出 的 英语 句子 与 逻辑 项 相 
匹配 。 这 对 于 产生 原子 、 规 则 和 问题 的 英语 版 本 ， 使 那些 可 能 并 不 知道 这 些 符号 的 特定 
解释 ， 甚 至 也 不 知道 正规 语言 的 句法 的 用 户 能 够 容易 地 理解 这 些 生 成 的 内 容 是 很 有 
用 的 。 


【 例 12-36] 图 12-8 给 出 了 生成 关于 课表 信息 的 封装 文本 的 文法 。 例 如 ， 下 面 的 查询 
ask translscheduled (w11 ,cs422,clock(15,30) ,above(csci333)), T,[ |]) 


产生 的 解答 为 T=[the，winter,，2011,， session, of, the, advanced, artificial, intelligence, 
course, is, scheduled, at, 3,:, 30, pm, in, the, room, above, the, computer, science, 


department，office]。 这 个 列表 可 写成 一 个 句子 提供 给 用 户 。 s < 


% trans(Term, To, TOWN, MR Term 转换 成 的 字 串 包含 在 T, 与 T 的 差异 列表 中 
trans(scheduled(S, C, L, R). Ti, T,)<— 


translsession(S), T,, Lof ITDA 
trans(course(C), Ty, [is, scheduled, at|T;])A 
trans(time(L), Ts, [in|T;]) A 
trans(room(R), T;, Ta). 
trans(session(wll), [the, winter, 2011, session | T], T). 
trans(course(cs422), [the, advanced, artificial, intelligence, course |T], T). 
trans(time(clock(0, M)), [12s:, M, am |T], T). 
trans(time(clock(H, M)), [H,:, M, am|T], D- 
H>0A H<12. 
trans(time(clock(12, M)), [12;:, M, pm|T]. T). 
trans(time(clock(H, M)), [H1,:, M, pm|T], TT) 
H>12A 
Hl is H— 12. 
trans(room(above(R)), [thes room, above|T,], T,)<— 
trans(room(R), T,, T,) 


trans(room(csci333), [the, computer, science, department, of fice|T], T) 








图 12-8 封装 英语 的 输出 的 文法 
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这 个 文法 可 能 对 于 理解 自然 语言 没有 用 处 ， 因 为 它 需 要 非常 格式 化 的 英语 ; 用 户 不 得 
不 对 项 进行 确切 的 翻译 以 得 到 一 个 合法 的 解析 。 


12.6.5 强制 约束 


自然 语言 中 施加 了 一 些 强制 约束 ， 如 “a students eat" 不 是 一 个 合法 的 甸子。 句子 中 的 
” 字 必 须 满足 一 些 约定 。 句 子 "A students eat” 没 有 满足 数 上 的 约定 ， 该 约定 说 明了 名 词 与 动 
词 使 用 单数 形式 还 是 复数 形式 。 

数 的 一 致 可 通过 参数 化 非 终结 符号 (引入 数 并 确保 语句 各 部 分 在 数 上 一 致 ) 强 制 文法 中 
对 数 的 约束 。 你 只 需 为 相关 的 非 终 结 符号 添加 一 个 额外 的 论 元 。 

【 例 12-37] 图 12-9 的 文法 判定 句子 “a students”, “the student eat” 或 “the students 
eats” 非 法 ， 因 为 它们 在 数 上 均 不 一 致 ， 但 判定 句子 “a green student eats”, “the students” 
或 “the student” 为 合法 ， 因 为 “the” 所 限定 内 容 可 为 单数 也 可 为 复数 。 





% 一 个 句子 是 一 个 名 词 短 语 后 跟 一 个 动词 短语 
sentence(T,. Tı, Num, s(NP, VP)) <- 
noun_phrase(T,, T,, Num, NP) A 
verb_phrase(T,, Tı, Num, VP) 
% 一 个 名 词 短语 是 空 或 是 一 个 限定 词 后 跟 一 个 修饰 语 再 跟 一 个 名 词 及 一 个 可 选 的 介词 短语 
noun_phrase(T, T, Num, nonp) 
noun _phrase(T,, Tı, Num, np(Det, Mods, Noun, PP))<- 
det(T,, Ti, Num, Det) A 
modi fiers(T,, Tz, Mods) 人 
noun(T;, Tı, Num, Noun) 人 
pplT;, T,, PP) 
% 一 个 动词 短语 是 一 个 动词 后 跟 一 个 名 词 短 语 再 跟 一 个 可 选 的 介词 短语 
verb _phrase(T,, T;, Num, vp(V, NP, PP))< 
verb(To, Tis Num, VA 
noun_phrase(T,, Ta, N2, NP) A 
pp(T;, Tas PP) 
% 一 个 可 选 的 介词 短语 是 空 或 是 一 个 介词 后 跟 一 个 名 词 短 语 。 这 里 仅 给 出 为 空 的 情况 。 
pplT, T, nopp) 
% 修饰 符 是 一 系列 的 形容 词 。 这 里 仅 给 出 为 空 的 情况 。 
modifiers(T, T, []) 
% 字典 
det([a |T], T, singular, inde finite) 
det([the |T], T, Num, definite) 


noun(Lstudent | T], T, singular, student) 








noun([students |T], T, plural, student) 


verb([eats | T], T, singular, eat) 
verbl [eat | T], T, plural, eat) 





E 12-9 强制 数 的 一 致 并 建立 解析 树 的 文法 
为 解析 句子 “the student eats”， 你 可 提出 查询 : 


ask sentence([the, student ,eats],[_],Num,T) 
其 返回 的 解答 为 : 
Num= singular, 
T=s(np(de finite.[],student,nopp) ,vp(eat,nonp,nopp)) 
为 解析 句子 “the students eat”， 你 可 提出 查询 : 
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ask sentence((the,students,eat |s[L |], Num, T) 
其 返回 的 解答 为 : 

Num= plural, 

T=s(np(de finite,[],student,nopp) .up(eat,nonp,nopp)) 

为 解析 句子 “a student eats”， 你 可 提出 查询 ; 

ask sentence((a,student,eats],[_],Num,T) 
其 返回 的 解答 为 : 

Num= singular, 

T=s(np(inde finite, [],student,:nopp) .up(eat »nonp,nopp)) 

请 注意 ， 各 解答 的 区 别 仅 在 于 主语 是 否 为 单数 及 限定 词 是 否 是 限定 的 。 < 


12.6.6 建立 自然 语言 与 数据 库 的 接口 


你 可 以 增强 前 面 的 文法 以 实现 一 个 简单 的 自然 语言 与 数据 库 间 的 接口 。 这 个 想法 是 将 
短语 分 解 为 在 数据 库 中 可 被 查询 的 形式 ， 而 不 是 转换 为 解析 树 的 形式 。 例 如 ， 一 个 名 词 短 
语 可 转换 成 带 有 一 组 谓词 的 个 体 ， 这 组 谓词 用 于 定义 该 个 体 。 

LBJ 12-38] 短语 “a female student enrolled in a computer science course” 可 被 转换 为 : 

answer (X)<— 

female(X) A student(X) 人 enrolled-in( X,Y) 人 course(Y) 
A department(Y ,comp_science) < 

让 我 们 先 不 考虑 量化 ， 如 “all”、“a” 和 “the” 是 如 何 转换 成 量词 的 。 你 可 以 通过 和 名词 短 
语 构造 一 个 查询 并 得 到 一 个 个 体 及 由 名 词 短 语 施加 到 该 个 体 上 的 约束 列表 。 适 用 的 文法 规 
则 由 图 12-10 给 定 ， 且 该 文法 规则 使 用 了 图 12-11 列 出 的 字典 。 


















% 一 个 名 词 短 语 是 一 个 人 限定 词 后 跟 修 饰 语 再 跟 一 个 名 词 及 可 选 的 介词 短语 
noun_phrase(T,, Tis, Obj, Caos C= 
det(T,. Tz» Obj. Cs, COA 
modi fiers(T,, Tz, Obj; Ci. GA 
noun(T;, T;, Obj, Cz, CsA 
pplTs, Tis Obj, Cy, Cy) 
% 修饰 语 由 一 系列 的 形容 词组 成 
modifiers(T, T, Obj, C, © 
modi fiers(T,, T}, Obj, Cy, Cy) 
adjective(T,, Tı, Obj» Cy, CIA 
modi fiers(T,, Ty, Obj, Ci» Cz) 
% 一 个 可 选 的 介词 短语 是 空 或 是 一 个 介词 后 跟 一 个 名 词 短 语 
pplT, T, Obj, C, ©) 
pplTo, Tis Ois Oe C= 
preposition(T,, Ti, Os Ors Cas CDA 
noun_phrase(T,, Tz, Oz» Gs Co) 





图 12-10 ”构造 一 个 查询 的 文法 


在 这 个 文法 中 ， 
noun_phrase( To , Ti 10; G Gi ) 


的 意思 是 列表 T 是 列表 T 的 结尾 ， 且 列表 T。 中 位 于 列表 T 之 前 的 字 构 成 一 个 名 词 短 
语 。 这 个 名 词 短 语 指 代 了 个 体 O。C。 是 Ci 的 结尾 ， 且 出 现在 C, 但 不 出 现在 Co 的 公式 是 
该 名 词 短 语 施加 在 个 体 O 上 的 约束 。 
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det(T, T, O, C, ©). 

det([a|T]. T, O, C, ©). 

det([the|T], T, O, C. ©). 

noun([ course |T], Ta Oy €, CeoursetO) | c). 
noun([ student | T], T., O, C, [student(O) [cB. 
noun([john|T], T, john, C, C). 
noun([es312 | T], T, 312, C, ©). 


adjective([ computer, science | T]. T, O, C, [dept(O, comp_science) IED 
adjective([ female |T], T, O, C, [female(O) | €J). 
preposition( [enrolled , in |T], T., O, OQ, C, Lenrolled(O,. O,) |c). 





图 12-11 用 于 构造 查询 的 一 个 字典 
LBJ 12-39] 查询 


ask noun_phrase(La,computer , science, course ],{_],Obj+L].C) 
将 返回 

C=[course(Obj) ,dept(Obj ,comp_science) | 

查询 

ask noun_phrase(La, female, student, enrolled ,in,a,com puter, 


science,course],{]1,P.[],© 


返回 
C=[course(X) ,dept(X .comp_science) ,enrolled(P,X),student(P), 
female(P) | 
如 果 从 数据 库 中 查询 的 是 列表 C 中 的 元 素 ， 且 上 述 数 据 库 使 用 了 这 些 关 系 和 常量 ， 则 
能 够 精确 地 找 出 选修 了 计算 机 科学 (computer science) 课 程 的 女 学 生 。 a 
12.6.7 局 限 


至 此 为 止 ， 我 们 假设 了 自然 语言 的 一 个 非常 简单 的 形式 。 我 们 的 目标 是 明确 哪些 内 容 
能 够 通过 简单 的 工具 来 容易 地 实现 ， 而 不 是 去 全 面 地 研究 自然 语言 。 有 用 的 数据 库 前 端 可 
用 这 些 工 具 来 构建 ， 而 这 些 工 具 可 通过 如 有 足够 约束 的 域 和 必要 的 询问 用 户 ( 如 有 歧义 的 
解释 时 ) 来 表示 。 

对 于 自然 语言 处 理 的 讨论 假设 了 自然 语言 是 可 组 成 的 ; 即 整体 的 含义 可 由 部 分 的 含义 
导出 。 组 合 性 在 一 般 情况 下 是 一 个 不 成 立 的 假设 。 你 通常 必须 知道 谈论 的 上 下 文 和 当时 的 
语 境 以 辨别 话语 的 含义 。 存 在 许多 类 型 的 歧义 ， 这 些 歧义 只 能 通过 理解 上 下 文 来 解决 。 

例如 ， 如 果 没 有 上 下 文 和 语 境 的 知识 ， 你 总 是 不 能 够 正确 确定 一 个 描述 的 引用 。 一 个 
描述 并 不 总 是 指向 一 个 唯一 确定 的 个 体 。 

【 例 12-40) 考虑 下 面 的 段落 ， 

The student took many courses. Two computer science courses and 

one mathematics course were particularly difficult. The mathematics 

段 中 所 指 由 上 下 文 来 定义 ， 而 不 是 仅 由 描述 “The mathematics course” 来 定义 。 此 处 可 
能 有 多 个 数学 课程 (mathematics course)， 但 我 们 从 上 下 文 可 知 该 短语 指 的 是 该 学 生 选 修 
的 特别 难 学 的 那 门 数学 课程 。 a 

如 果 人 允许 使 用 “加 e? 或 “zz”， 或 者 允许 字 有 多 种 含义 ， 则 在 数据 库 应 用 中 就 会 产生 许多 
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引用 问题 。 上 下 文 用 来 消除 自然 语言 中 的 这 些 歧 义 。 考 虑 下 面 的 句子 ， 
Who is the head of the mathematics department? 


Who is her secretary? 
显然 ， 上 述 句 子 中 的 “her” 的 指 代 是 清楚 的 ， 只 要 读者 理解 了 “head” 是 指 人 ， 有 性 的 
区 别 ， 而 系 (department) 却 没有 性 的 区 分 。 


12.7 相等 


有 些 时 候 使 用 多 个 项 来 命名 同一 个 体 是 有 用 的 。 例 如 ， 项 4X4、2:、273 一 257 及 16 
都 表示 同一 个 数字 。 有 些 时 候 ， 你 想 让 每 一 个 名 字 都 引用 不 同 的 个 体 。 例如， 你 希望 为 大 
学 里 的 不 同 课程 制定 独立 的 名 字 。 有 些 时 候 ， 你 并 不 知道 两 个 名 字 是 否 指 代 了 同一 个 体 ， 
如 你 不 知道 早晨 8 点 的 派送 员 与 下 午 1 点 的 派送 员 是 否 是 同一 个 人 。 

本 节 讨 论 相 等 的 作用 它 允许 我 们 可 否 使 用 两 个 项 来 指 代 环 境 中 的 同一 个 体 。 请 注 
意 ， 在 本 章 前 面 介 绍 的 限定 子 句 语言 中 ， 所 有 的 解答 都 是 有 效 的 ， 不 管 那些 项 是 否 指 代 了 
同一 个 体 都 是 如 此 。 

相等 是 一 个 特殊 的 谓词 符号 ， 具 有 一 个 标准 的 、 独 立 于 域 的 特定 解释 。 

如 果 项 tt Alt, 表示 了 解释 了 中 的 同一 个 体 ， 则 项 与 项 ts 在 该 解释 中 相等 (equal)， 
记 为 tı Stz o 

相等 不 是 相似 。 如 果 a Md 均 为 常量 上 且 a 王 上， 则 不 是 说 有 两 个 事物 相似 或 者 是 完全 一 
样 。 与 此 相反 ， 它 的 含义 是 同一 事物 有 两 个 名 字 。 

【 例 12-41] 考虑 图 12-12 给 出 的 两 把 椅子 的 世界 。 

在 这 个 世界 中 ，chairl1 二 chair2 不 为 真 ， 即 使 这 两 把 椅子 
完全 相同 也 是 如 此 ; 如 果 没 有 椅子 的 确切 的 位 置信 息 ， 
就 无 法 区 分 它们 。 此 时 有 一 种 情况 是 chairOnRight = 
chair2。 此 时 并 不 表示 位 于 右边 的 椅子 (chairOnRight) 与 
chair2 相似 ， 而 是 说 它 就 是 chair2。 < chairl chair2 


12-12 ”两 把 椅子 
12.7.1 允许 相等 断言 


如 果 你 不 允许 相等 断言 ， 那 么 与 一 个 项 相等 的 就 只 有 它 自己 。 一旦 有 了 相等 断言 
X 一 X， 就 可 以 表达 相等 了 。 这 就 意味 着 对 于 任 一 个 基 项 t+，t 指 代 了 同一 个 体 。 

如 果 你 想 允 许 使 用 相等 断言 (例如 想 表达 chairOnRight=chair2), WRR ERRA 
必须 能 够 从 知识 库 中 导出 其 相应 的 结论 ， 其 中 在 数据 库 中 包含 某 些 头 部 具有 相等 关系 的 子 
句 。 实 现 方法 主要 有 两 种 。 第 一 种 类 似 于 谓词 那样 声明 公理 化 相等 。 第 二 种 是 为 相等 构建 
有 特殊 目的 的 推理 机 。 本 节 讨 论 这 两 种 方法 。 

1. 公理 化 相等 

相等 可 以 进行 如 下 的 公理 化 。 下 面 三 个 公理 表示 相等 是 自 反 、 对 称 、 传 递 的 。 

X=X 

X=Y-+Y=X 

X= Z<X=YA¥=Z 

其 他 的 公理 依赖 于 语言 中 函数 和 关系 符号 的 集合 ， 因 此 ， 它 们 形成 了 公理 模式 (axiom 
schema) 。 其 中 的 基本 思想 是 你 可 以 使用 一 个 项 替换 函数 和 关系 中 的 相等 的 项 。 对 于 每 一 
个 nn 元 函数 符号 f， 有 一 个 如 下 形式 的 规则 : 
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FM s Xn) 一 FN oe VIR HY Ao AX, =Y, 

对 于 每 一 个 n 元 谓词 符号 p>， 有 一 个 如 下 形式 的 规则 : 

POX: 900 XP 0 VAI AX =Y Ao A Xna Y, 

LB 12-42] 二 元 函数 coxs(X，Y) 需 要 下 面 的 公理 : 

coO7SCX1 ,X2)=cons(Y, ,¥2.)<-X, =Y, AX: =Y, 

三 元 关系 prop(T， 卫 ，V) 需 要 下 面 的 公理 : 

prop(l,,P,,V,)<prop(h,,P2,V2) Ah =L: A Pi=P: AVi =V: < 

将 这 些 公理 显 式 地 作为 知识 库 的 一 部 分 会 使 得 推理 效率 非常 低 。 在 自 顶 向 下 深度 优先 
的 解释 器 中 使 用 这 些 规 则 不 能 保证 算法 能 够 停止 。 例 如 ， 对 称 性 公理 会 造成 无 限 的 循环 ， 
除非 注意 到 了 相同 的 子 目标 。 

2. 特殊 目的 的 相等 推理 

参数 化 调整 (paramodulation) 是 一 个 扩充 证 明 过 程 以 实现 相等 的 方法 。 其 基本 思想 是 ， 
如 果 有 刁 二 t; ， 则 任何 出 现 志 的 地 方 均 可 被 t 蔡 代 。 因 此 ， 相 等 此 时 可 被 看 做 是 重 写 规则 
(rewrite rule) ， 在 其 中 用 一 组 项 替换 另 一 组 相等 的 项 。 如 果 你 能 够 为 每 一 个 个 体 选 择 一 个 
规范 表示 (canonical representation) , 则 这 个 方法 工作 最 好 ， 其 中 规范 表示 是 一 个 项 ， 而 

表示 该 个 体 的 其 他 的 方式 可 以 映射 到 它 。 

一 个 经 典 的 例子 是 数 的 表示 。 存 在 许多 表示 了 同一 个 数 的 项 (如 4X4、13 十 3、273 一 
257、2*、4* 、16) ， 但 我 们 通常 将 数字 序列 (以 十 进 制 表示 ) 作 为 数字 的 规范 表示 。 

大 学 使 用 学 号 为 每 一 个 学 生 提 供 了 一 个 规范 表示 。 从 而 ， 同 名 的 不 同学 生 可 被 区 分 开 
来 ， 同 一 个 学 生 的 不 同名 字 也 可 映射 到 该 学 生 的 学 号 上 。 


12.7.2 唯一 名 字 假 设 


不 可 知 论 者 怀疑 每 一 个 项 的 相等 ， 因 此 期 望 着 用 户 以 公理 化 的 形式 指明 哪些 名 字 指 代 
同一 个 体 、 哪 些 名 字 指 代 不 同 个 体 。 与 此 不 同 ， 采 用 不 同 的 基 项 指 代 不 同 的 个 体 这 样 的 假 
设 常 常会 使 问题 变 得 更 简单 。 

【 例 12-43] 考虑 学 生 数 据 库 的 一 个 示例 ， 其 中 每 位 学 生 必须 有 两 门 科学 选修 课 。 假 
设 某 位 学 生 已 经 通过 了 math302 和 psyc303 课程 ; 那么， 如 果 你 知道 math302F psyc303, 
则 你 仅仅 会 知道 他 们 是 否 已 经 通过 了 两 门 课程 。 也 就 是 说 ， 常 量 math302 和 psyc303 指 代 
不 同 的 课程 。 因 此 ， 你 必须 知道 哪些 课程 号 指 代 不 同 的 课程 。 与 为 个 个 体 编写 nrX (za 一 
1) 条 不 相等 公理 相 比 ， 假 设 有 每 一 个 课程 号 指 代 了 不 同 的 课程 这 一 惯例 会 更 好 ， 并 且 这 样 
做 也 可 以 避免 使 用 不 相等 公理 。 < 

这 种 处 理 相等 的 方法 被 称 为 唯一 名 字 假 设 。 

唯一 名 字 假 设 (unique names assumption，UNA) 是 这 样 的 一 个 假设 : 不 同 的 基 项 表示 
不 同 的 个 体 。 也 就 是 说 ， 对 于 每 一 对 不 同 的 基 项 Me, B Atr, HP“A "WHALE 
“不 相等 ”。 

请 注意 ， 这 并 不 遵循 限定 子 句 语言 的 语义 。 对 于 上 述 语义 来 说 ， AANA Mt 
可 以 指 代 同 一 个 体 也 可 指 代 不 同 个 体 。 

在 目前 提出 的 逻辑 中 ， 唯 一 名 字 假 设 仅仅 在 子 句 体 中 存在 明确 的 不 相等 或 在 子 句 的 头 
中 存在 明确 的 相等 时 才 有 意义 。 有 了 唯一 名 字 假 设 ， 除 了 前 面 介绍 的 在 子 句 中 定义 相等 
外 ， 相 等 并 不 出 现在 子 句 的 头 。 其 他 子 句 意味 着 相等 或 者 是 一 类 宛 余 或 者 是 违反 了 唯一 名 
字 公 理 。 
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唯一 名 字 假 设 可 使 用 下 面 的 对 不 相等 的 公理 模式 进行 公理 化 ， 其 中 由 对 于 相等 的 公理 
模式 连同 公理 模式 共同 组 成 : 
。 对 于 任意 不 同 的 常量 Alc’, cH’. 


。 对 于 任意 不 同 的 函数 符号 Mg, SXi …， XOAgY os Yn) 

。 对 于 任意 的 函数 符号 F，CXI，…，X,) 天 Yi e, Y) AX AY, KB, WF 
n TORRES f, KA n PARA OE i MA, 1<i<n). 

。 对 于 任意 隆 数 符号 f MBH, (CX, 1s Xa) Æc. 


。 对 于 任意 出 现 了 X 的 项 上 (其 中 上 不 是 项 X)，: 天 X。 

有 了 这 个 公理 化 ， 两 个 基 项 是 不 相等 的 当 且 仪 当 它们 不 能 合 一 时 ， 因 为 如 果 它 们 能 够 
合 一 则 它们 必定 相同 。 这 个 情况 对 于 非 基 项 并 不 成 立 。 例 如 ，a 天 X 有 一 些 为 真 的 实例 (如 
X 取 值 为 8)， 而 男 一 些 实例 为 假 (如 XX 取 值 为 a)。 

唯一 名 字 和 假设 对 于 数据 库 应 用 是 非常 有 用 的 你 不 会 希望 在 数据 库 中 加 入 诸如 
kim~sam, kimschris 及 chris#sam 的 子 句 。 唯 一 名 字 假 设 允 许 我 们 使 用 每 一 个 名 字 指 
代 一 个 不 同 的 个 体 这 一 惯例 。 

有 些 时 候 ， 唯 一 名 字 假 设 是 不 合适 的 ， 如 2+244 MRR. clark_kentA#super- 
man 也 可 能 是 错误 的 例子 。 

有 了 唯一 名 字 假 设 的 自 项 向 下 过 程 

包含 了 唯一 名 字 假 设 的 自 顶 向 下 过 程 不 应 将 不 相等 作为 另 一 个 谓词 来 处 理 ， 这 主要 是 
因为 对 于 任意 一 个 给 定 的 个 体 来 说 ， 存 在 着 太 多 不 同 的 个 体 。 

如 果 有 一 个 子 目 标 OAL, WHR. Ae 有 如 下 三 种 情况 : 

1) 4 和 ts AREA—. WEA. At 是 成 立 的 。 

slg. f(X, a, g@XYNFSUCX), X, 中) 是 成 立 的 ， 因 为 这 两 个 项 不 能 合 一 。 

2) i At 完全 一 致 ， 包括 了 在 同一 位 置 使 用 了 同样 的 变量 。 此 时 ， 关 ts 不 成 立 。 

例如 ， 大 (和 ，e，g(CX)) 天 FX，a，g(CX)) 不 成 立 。 

请 注意 ， 对 于 任何 一 对 基 项 ， 上 述 两 种 情况 必然 出 现 一 个 。 

3) 另外 , nA 的 一 些 实例 成 立 ， 另 一 些 实例 不 成 立 。 

H, ETH SW, a. g(ZDÆf@X), X, Y). BAS f(W, a, (2) A 
fX), X, Y) MGU #{X/a, W/i(a)，Y/g(2Z)}。 一 些 该 不 相等 的 实例 一 一 其 基 实 
例 与 合 一 算 子 一 致 一 一 应 该 不 成 立 。 任 何 与 合 一 算 子 不 一 致 的 实例 应 该 是 成 立 的 。 与 其 他 
的 目标 不 同 ， 你 不 会 想 去 枚 举 每 一 个 成 立 的 实例 ， 因 为 那 就 意味 着 X 与 每 一 个 函数 合 一 
且 常 量 不 为 a， 同 时 为 Y 和 Z 枚 举 每 一 对 取 值 目 了 与 8g(2Z) 不 同 。 

可 扩展 自 顶 向 下 证 明 过 程 以 处 理 唯 一 名 字 假 设 。 第 一 类 型 的 不 相等 可 以 成 立 而 第 二 类 
不 相等 不 成 立 。 第 三 类 不 相等 可 以 推迟 Cdelay) ， 等 待 后 续 目 标 合 一 变量 ， 直 到 出 现 前 两 
类 不 相等 中 的 一 个 。 在 图 12-3 中 的 证 明 过 程 中 ， 在 选择 ac 的 体 中 的 一 个 原子 时 ， 为 推迟 
一 个 目标 ， 算 法 应 该 在 不 被 推迟 的 原子 中 选择 一 个 。 如 果 没 有 其 他 原子 可 选 且 前 两 种 不 相 
等 的 情况 均 不 出 现 ， 则 查询 应 该 成 立 。 总 有 一 个 不 相等 实例 成 立 ， 即 此 实例 中 的 每 一 个 变 
量 取 一 个 不 同 的 值 且 该 取 值 在 其 他 任何 地 方 均 不 出 现 。 当 发 生 这 种 情况 时 ， 用 户 在 解释 解 
答 中 的 自由 变量 时 必须 加 以 注意 。 此 解答 不 意味 着 其 对 于 自由 变量 的 每 一 实例 均 成 立 ， 而 
是 仅 对 其 中 的 某 些 实例 成 立 。 

【 例 12-44) 考虑 判定 一 位 学 生 是否 已 通过 了 至 少 两 门 课程 的 规则 : 


passed_two_courses( S)<— 
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CAC, A 
passed(S,C,) A 
passed(S,C,) 
passed (S,C)< 
grade(S,C,M).A 
M>50 | 

grade(mike,engl101,87) 

grade(mike, phys101,89) 

对 于 查询 

ask passed_two_courses(mike) 

FAwROAC, 是 否 成 立 尚 无 法 确定 ， 因 此 必须 推迟 判定 。 自 项 向 下 证 明 过 程 可 以 选择 
passed(mike, Ci), HPC, 的 取 值 为 engl1101。 随 后 调用 passed(mike，C;)， 在 其 中 接着 
调用 gradel(mige，C;，M)， 此 时 使 用 替换 {Cs/engli101，M/87}) 能 够 使 得 推理 成 立 。 此 
时 ， 对 于 推迟 的 不 相等 判断 ， 其 变量 取 值 均 已 绑 定 且 能 够 做 出 不 相等 不 成 立 的 结论 。 

对 于 grade (mike，C;，M)， 另 一 个 可 被 选择 的 子 名 返回 的 替换 为 {C2/phys101， 
M/V89}。 此 时 ， 推 迟 判定 的 不 相等 中 的 变量 已 经 全 部 绑 定 ， 因 此 足以 测试 不 相等 是 否 成 
立 这 一 次 不 相等 是 成 立 的 。 随 后 可 继续 证 明 89 之 50， 从 而 子 目 标 成 立 。 

根据 这 个 例子 ， 人 们 可 能 提出 这 样 的 问题 :“ 为 什么 不 在 最 后 再 判定 不 相等 是 否 成 立 ? 
这 样 不 是 不 需要 推迟 判定 了 吗 ?” 对 此 有 两 个 理由 。 第 一 ， 推 迟 可 能 会 使 效率 更 高 。 在 这 个 
例子 中 ， 对 不 相等 的 判定 可 在 测试 87> 50 是 否 成 立 之 前 。 尽 管 这 个 特殊 的 不 等 式 测试 很 
快 可 以 完成 ， 但 在 许多 情况 下 及 早 判 定 是 否 违 反 了 不 相等 条 件 会 节约 大 量 的 计算 时 间 。 第 
二 ， 如 果 有 一 个 子 证 明 需 要 在 一 个 值 被 绑 定 之 前 就 被 返回 ， 则 证 明 过 程 需要 记 住 证 明 过 程 
中 的 不 相等 约束 ， 从 而 ， 如 果 将 来 的 合 一 违反 了 上 述 约束 则 证 明 过 程 就 会 失败 。 < 


12.8 完备 知识 假设 


为 扩展 5. 5 节 介 绍 的 完备 知识 假设 以 用 于 带 有 变量 和 函数 符号 的 逻辑 程序 中 ， 我 们 需 
要 关于 相等 的 公理 、 封 闭 领域 及 关于 完备 性 的 更 复杂 的 概念 。 再 一 次 ， 这 里 定义 了 和 否定 即 
失败 Cnegation as failure) 的 一 种 形式 。 

CG 12-45〗 假设 一 个 student 关系 定义 如 下 : 


student(mary) 





student (john) 

student ( ying) 

根据 完备 知识 假设 ， 可 以 说 上 面 三 个 学 生 即 是 全 部 的 学 生 ; 也 就 是 说 ， 

student(X)<*X=mary V X= john \ X= ying 

AMEH, WR X Æ mary, john RA ying, WX 是 一 个 学 生 ， 且 如 果 X 是 一 个 学 
EMX 必 为 上 述 三 人 之 一 。 特 别 地 ，Kim 不 是 一 个 学 生 。 

要 得 出 -student(kim) 这 一 结论 ， 需 要 证 明 kim 关 mary \kimAjohn\ kimA~ying. HA 
导出 这 些 不 相等 结果 ， 需 要 使 用 唯一 名 字 假 设 。 a 

完备 知识 假设 包括 唯一 名 字 假 设 。 因 此 ， 我 们 在 本 节 的 后 续 部 分 假设 了 关于 相等 和 不 
相等 的 公理 。 

子 句 

PCy yt yt +B 
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的 Clark 范式 (clark normal form) #4] 

PWV Vi IW UW, Vigan A AVSA AB 
其 中 ，V1，…，Vi Ek PERF) PARE, Wo, e, Wn 是 子 句 中 的 原始 变 
量 。“ 习 ”表示 “存在 ”。 当 该 子 句 是 一 个 原子 子 句 时 ，B 为 真 。 


设 所 有 关于 p 的 子 句 均 已 写 为 Clark 范式 形式 ， 且 使 用 同一 组 引入 的 变量 ， 有 : 
pV < 


PCV, Vi) AB, 
其 等 价 于 : 
pV; VD) 一 BV…VB。 
这 个 蕴含 式 在 逻辑 上 等 价 于 初始 的 子 句 集 合 。 
谓词 p 的 Clark 完备 化 (Clark's completion) 是 如 下 的 等 价 : 
YV YVip (Vis +, Vide*B, Vo VB, 
其 中 ， 体 中 的 否定 即 失 败 ( 一 ) 替 换 为 标准 的 逻辑 否定 (” )。 完 备 化 意味 着 pC(Vi，…， Va) 
为 真 当 且 仅 当 至 少 有 一 个 体 B; AH. 
知识 库 的 Clark 完备 化 由 每 一 个 谓词 符号 的 完备 化 以 及 关于 相等 和 不 相等 的 公理 组 成 。 
【 例 12-46] 对 于 子 句 
student(mary) 
student( john) 
student( ying) 
其 Clark 范式 是 : 
student(V)<-V=mary 
student(V)<-V= john 
student(V)<-V= ying 
其 等 价 于 : 
student(V)<-V= mary \ V = john V V = ying 
谓词 student 的 完备 化 是 : 
YV student(V) V = mary \ V= john V V= ying < 
【 例 12-47) 考虑 如 下 的 递归 定义 : 
passed_each({_],St,MinPass) 
passed _each(([C|R],St,MinPass)< 
passed(St,C,MinPass) A 
passed_each(R,St,MinPass) 
用 Clark 范式 的 形式 ， 上 面 的 定义 可 写 为 : 
passed_each(L,S,M)<L=[] 
passed _each(L,S,M)< 
JCARL=[C|RIA 
passed(S,C,.M) A 
passed_each(R,S,M) 
这 里 ， 我 们 删 去 了 那些 明确 规定 变量 更 名 的 相等 声明 并 将 变量 名 改 为 合适 的 名 字 。 因 
passed_each 的 Clark 完备 化 为 : 
YLYSYM passed_each(L.S,M)-L=[]V 
ACAR(L=[C|RIA 


& 
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passed(S,C,M)A 
passed_each(R,S,M)) < 

在 完备 知识 假设 之 下 ， 仅 使 用 限定 子 句 无 法 定义 的 关系 现在 可 以 定义 了 。 

【 例 12-48) 假设 你 有 一 个 数据 库 ， 其 中 当 C 为 一 个 课程 时 course (C) 为 真 ， 且 有 en- 
rolled(S，C)， 其 含义 为 学 生 S 在 课程 C 的 选课 名 单 中 。 如 果 没 有 完备 知识 假设 ， 则 当 没 
有 学 生 在 课程 C 的 选课 名 单 中 时 ， 你 不 能 定义 emptiy_course(C) 为 真 。 这 是 因为 总 有 一 个 
知识 库 模 型 ， 在 该 模型 中 有 某 人 在 所 有 课程 的 选课 名 单 中 。 

使 用 否定 即 失 败 规 则 ，empty_course(C) 可 被 定义 为 : 

empty_course(C)<-course(C) A ~has_Enrollment(C) 

has_Enrollment(C)<-enrolled(S,C) 

其 完备 化 为 : 

V Cempty_course(C)course(C) A thas_Enrollment(C) 

YC has_Enrollment(C)++ J S enrolled (S,C) < 

这 里 ， 我 们 要 提醒 一 下 。 当 在 否定 即 失 败 规则 中 含有 自由 变量 时 ， 你 需要 非常 小 心 。 
此 时 的 结果 通常 与 你 的 设想 不 一 致 。 在 前 面 的 例子 中 ， 我 们 引入 了 谓词 has_Enroliment 以 [540 
避免 在 否定 即 失 败 中 含有 自由 变量 。 下 面 考 虑 如 果 没 有 做 上 述 处理 时 会 发 生 什 么 。 

【 例 12-49〗 有 人 可 能 试图 将 empty_course 定义 为 如 下 形式 : 

empty_course(C)<-course(C) A ~enrolled(S,C) 

其 完备 化 为 : 

Y Cempty_course(C)< J S course(C) A “enrolled (S, C) 

这 是 不 正确 的 。 设 有 如 下 子 句 : 

course(cs422) 

course(cs486) 

enrolled(mary,cs422) 

enrolled (sally ,cs486) 

FA 

empty_course(cs422)<—course(cs422) A ~enrolled(sally,cs422) 

是 前 述 子 句 的 一 个 实例 ， 其 体 为 真 ， 但 其 头 为 假 ， 因 为 cs422 不 是 一 个 没有 学 生 的 课程 。 
这 是 前 述 子 句 的 正确 性 的 一 个 反例 。 

请 注意 ， 例 12-48 中 定义 的 完备 化 等 价 于 : 

V Cempty_course(C) «*+course(C) 人 一 习 S enrolled (S,C) 

存在 量词 在 否定 的 范围 中 ， 所 以 其 等 价 于 : 

Y Cempty_course(C)+*course(C) A Y S7enrolled(S,C) < 


完备 知识 假设 证 明 过 程 


带 有 变量 和 函数 的 否定 即 失 败 的 自 顶 向 下 证 明 过 程 与 命题 的 否定 即 失败 的 自 顶 向 下 
证 明 过 程 非常 相似 。 因 为 有 唯一 名 字 假 设 ， 则 在 否定 目标 中 有 自由 变量 时 会 产生 一 个 
问题 。 

【 例 12-50) 考虑 下 面 的 子 句 : 

p(X)—~q(X)Ar(X) 

qla) 

qlb) 

r(d) 
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根据 语义 ， 对 于 查询 ask p(X) 只 有 一 个 解答 ， 即 X= 二 d。 因 为 有 7r(d) 成 立 ， 所 以 ~g(d) 


成 立 ， 进 而 p(q) 在 逻辑 上 可 从 知识 库 导出 。 


当 自 顶 向 下 证 明 过 程 遇 到 一 q(X) 时 ， 它 不 应 该 试图 去 证 明 g(X) 为 真 而 ~ 一 q(X) 为 假 
(使 用 替换 {XX/a})。 这 将 会 使 目标 p(X) 不 成 立 ， 然 而 该 目标 应 该 成 立 。 因 此 ， 该 证 明 过 
程 不 是 完备 的 。 请 注意 ， 如 果 知 识 库 包含 了 s(X) 一 一 g(X)， 则 gq(X) 不 成 立 就 意味 着 
5(X) 成 立 。 因 此 ， 根 据 和 否定 即 失 败 ， 非 完备 性 就 会 导致 不 可 靠 性 。 

根据 唯一 名 字 假 设 ( 见 12. 7.2 节 )， 一 个 可 靠 的 证 明 过 程 应 该 推迟 否定 的 子 目 标 ， 直 
到 自由 变量 有 了 绑 定 的 取 值 。 4 

当 含 有 对 带 有 自由 变量 的 否定 即 失 败 的 调用 时 ， 我 们 需要 一 个 更 加 复杂 的 自 顶 向 下 证 
明 过 程 : 

。 包含 了 自由 变量 的 和 否定 即 失败 目标 必须 推迟 到 变量 变 成 绑 定 之 时 。 

。 如 果 变 量 永 不 会 变 成 绑 定 的 ， 则 出 现 目 标 率 乱 (flounder) 。 此 时 ， 你 不 能 对 目标 作 

出 任何 结论 。 下面 的 例子 说 明 你 应 该 对 此 时 紊乱 的 目标 做 一 些 更 复杂 的 事情 。 

【 例 12-51) 考虑 子 句 : 

p(X)<—~a(X) 

q(X)<—~r(X) 

rla) 
及 查询 

askp(X) 

完备 化 的 知识 库 是 : 

p(X) ~q X) 

q(X)> mr(X) 

r(X)e X =a 

Fr, AR X=a Wag Ae 一 X 一 a， 因 此 有 pX)eX=a, MMA—T fF 
答 ， 即 X 一 a， 不 过 推迟 该 目标 将 不 会 有 助 于 发 现 此 解答 。 一 个 证 明 过 程 应 该 分 析 未 能 得 


出 该 解答 的 情况 。 然而， 这 样 的 过 程 超出 了 本 书 讨论 的 范围 。 < 
12.9 本 章 小 结 

*。 在 使 用 个 体 和 关系 刻画 的 领域 中 ， 表 示 个 体 的 常量 及 表示 关系 的 谓词 符号 均 可 用 于 推理 ， 以 确定 
在 域 中 哪些 为 真 。 


*。 Datalog 是 带 有 常量 、 全 称 量化 的 变量 、 关 系 和 规则 的 逻辑 语言 。 

。 蔡 换 用 于 生成 原子 和 规则 的 实例 。 合 一 使 得 原子 变 得 相同 ， 以 便 用 于 证 明 。 

。 函数 符号 用 于 指 代 一 个 可 能 的 无 限 的 个 体 集合 ， 该 集合 中 的 个 体 使 用 其 他 个 体 来 描述 。 画 数 符号 
可 用 于 构建 数据 结构 。 

。 使 用 限定 子 句 来 表示 自然 语言 的 文法 是 可 能 的 。 

。 项 之 间 的 相等 意味 着 这 些 项 均 指 代 同 一 个 体 。 

* Clark 完备 化 可 在 完备 知识 假设 条 件 下 用 于 定义 否定 即 失败 的 语义 。 


12.10 ”参考 文献 及 进一步 阅读 


Datalog 和 逻辑 程序 由 Kowalski[1979], Sterling 和 Shapiro[ 1986] 及 Garcia-Molina, Ullman 和 
Widom[2009] 描 述 。 逻 辑 程 序 设 计 的 历史 可 参考 Kowalski[1988] 和 Colmerauer、Roussel[1996] 的 工作 。 
关于 和 否定 即 失败 的 工作 ， 以 及 唯一 名 字 假 设 的 工作 ， 均 以 Clark[1978j 的 工作 为 基础 。 要 大 臻 了解 逻 
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辑 程 序 设计 和 深入 了 解 否 定 即 失败 ， 可 参考 LloydL1987] 的 书 。Apt 和 Bol[1994] 对 各 种 处 理 否 定 即 失 败 
的 技术 做 了 总 结 。 


想 了 解 计算 语言 学 请 参考 Jurafsky 和 Martin[2008] 的 工作 及 Manning 和 Schiitze[1999] 的 工作 。 使 用 


限定 子 句 来 描述 自然 语言 由 Pereira 和 Shieber[2002] 及 Dahl[1994] 完 成 。 
12.11 JA 


12.1 


2:2 


12. 4 


GiIR—-PA ATMA). BBS po 和 9g) 及 三 个 常量 (a、b 和 <c) 的 域 。 知 识 库 KB 的 
定义 如 下 : 
p(X)<—q(X) 
qla) 
(a) 给 出 一 个 解释 ， 该 解释 是 KB 的 一 个 模型 。 
(b) 给 出 一 个 解释 ， 该 解释 不 是 KB 的 一 个 模型 。 
(c) 共有 多 少 个 解释 ? 给 出 你 的 理由 。 
(d) 上 述 解 释 中 有 多 少 是 KB 的 模型 ? 给 出 你 的 理由 。 
考虑 包含 了 常量 符号 a、5 和 上 c， 谓 词 符号 丸和 9， 没 有 函数 符号 的 语言 。 我 们 有 下 面 的 知识 库 ， 
其 从 该 语言 中 构建 。 
KB, ={ pla)} 
KB, = { p(X)<-q(X)) 
KB, =({p(X)<q(X), 
pla), 
q(b)} 
现在 考虑 该 语言 的 形 如 I= (D, n, SMA RRR, 其 中 D=, T, +. ®). 
(a) 在 我 们 的 简单 语言 中 ， 对 于 域 中 的 这 4 种 元 素 共 有 多 少 种 解释 ? 请 说 出 你 的 理由 。( 提 示 : 考 

虑 对 于 常量 符号 有 多 少 可 能 的 指派 $， 并 考虑 谓词 Mg 有 多 少 种 扩展 ， 最 后 确定 存在 多 少 指 

UR x) 不 要 试图 枚 举 所 有 可 能 的 解释 。 

(b) 在 上 述 解 释 中 ， 有 多 少 是 KB HRA? 请 给 出 你 的 理由 。 
(c) 在 上 述 解 释 中 ， 有 多 少 是 KB HRA? 请 给 出 你 的 理由 。 
(d) 在 上 述 解释 中 ， 有 多 少 是 KB, 的 模型 ? 请 给 出 你 的 理由 。 
考虑 下 面 的 知识 库 : 

ra) 

r(e) 

plo) 

qb) 

s(a,b) 

s(d,b) 

s(e,d) 

p(X)<=gCX) A rCX) 

q(X)=—s(X,Y) Aggy) 

请 给 出 可 从 该 知识 库 中 导出 的 基 原 子 结论 集合 。 假 设 使 用 了 自 底 向 上 的 证 明 方法 且 在 每 一 次 
迭代 中 都 在 可 选 子 句 中 按 顺 序 选择 第 一 个 。 进 一 步 ， 可 用 的 常量 替换 均 按 “字母 顺序 ?进行 选择 (如 
果 有 多 个 可 选 ); 例如， 如果 在 某 次 迭代 中 蔡 换 X/a 入 /5 均 可 适用 ， 则 首选 g(a) 。 那 么 按 顺序 
导出 的 结论 是 怎样 的 ? 

在 例 12-21 中 ， 算 法 偶然 地 选择 了 imm_west(r109，r111) 作 为 归结 的 子 句 。 如 果 选 择 的 是 另 一 个 
子 句 会 产生 什么 样 的 结果 ? 请 给 出 归结 过 程 ， 并 给 出 不 同 的 解答 或 者 给 出 一 个 泛 化 的 解答 子 句 ， 
该 子 句 不 能 够 使 用 知识 库 中 的 任意 子 句 进行 归结 。 
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12.5 在 例 12-21 中 ， 我 们 总 是 选择 最 左边 的 合 取 项 进行 归结 。 存 在 一 个 选择 规则 (在 查询 中 选择 一 个 合 
取 项 进行 归结 )， 对 于 本 例 ， 该 规则 将 仅 返 回 一 个 选项 吗 ? 给 出 一 个 一 般 规 则 ， 其 产生 较 少 的 失败 
分 支 (至 少 对 于 本 例 是 如 此 ) 。 给 出 一 个 你 的 规则 不 能 工作 的 例子 。 - 
12.6 按照 例 12-21 的 方式 ， 给 出 下 面 查询 的 导出 过 程 : 
(a) ask two_doors_east(r107, R) 
Cb) ask next_door(R, r107) 
Ce) ask west(R, r107) 
Cd) ask west(rl07, R) 
请 给 出 每 一 个 查询 的 解答 。 
12.7 考虑 下 面 的 知识 库 : 
has_access(X , library)<student(X) 
has_access(X , library) < faculty(X) 
has_access(X , library)<has_access(Y , library) 人 parent(Y , X) 
has_access(X ,of fice)«has_keys(X) 
faculty(diane) 
faculty(ming) 
student( william) 
student (mary) 
parent( diane, karen) 
parent(diane,robyn) 
parent(susan,sarah) 
parent(sarah,ariel) 
parent(karen,mary) 
parent(karen,todd) 
(a) 给 出 查询 ask Aas_access(todd, library) fh) SLD SHE. 
(b) 查询 ask has_access(mary, library A MA SLD 导出 ， 请 给 出 它们 。 
Cc) 查询 ask has_access(ariel, library) SLD 导出 吗 ? 请 解释 。 
Cd) 请 解释 查询 ask has_access(X，ofrice) 的 解答 为 什么 为 空 ? 
Ce) 假设 下 面 的 子 句 加 入 了 知识 库 ， 
has_keys(X)< faculty(X) 
544 那么 查询 ask has_access(X，oFrice) 的 解答 是 什么 ? 
12.8 应 用 了 下 面 的 蔡 换 后 得 到 的 结果 是 什么 ? 
(a) f(A, X, Y, X, Y){A/X, Z/b, Y/c} 
(b) yes(F, L)<append(F, c(L, nil), c(l, cli, cls, c(t, nil))))) 
{F/ce(l, Xi), Yi/elL, nil), Ay/l, Z,/cCis cs, c(t, nil)))} 
Ce) append(c(A;, Xi), Yı, c(A:, Z,))<-append(X,, Yi, Z:) 
{F/ceCl, Xi), Yi /eCL, nil), A/L, Z,/cGi, cls, c(t, nil)))} 
12.9 找 出 下 面 表达 式 对 的 最 广 合 一 算 子 : 
(a) pC fCX), e(g(b))) Al p(Z, g(Y)) 
(b) gC fCX), r(X), OM g(W, rQ), Q) 
Cc) bar(val(X, bb), Z)#l bar(P, P) 
12.10 ”对 于 下 面 的 原子 对 ， 如 果 有 最 广 合 一 算 子 请 给 出 ， 否 则 请 解释 为 什么 不 存在 : 
(a) p(X, Y, ay b, W) 
PCE, c, F, G, F) 
(b) p(X, Y, Y) 
pE, E, F) 


12. 11 


12. 12 


12. 13 


12. 14 


12. 15 
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(c) p(Y, a, b, 了) 
pte, F, G; P) 

€d) ap(F0, c(b, c(BO, LO)), cla, clb, clb, cla, emp))))) 
ap(c(H1, T1), L1, c(H1, R1)) 

列 出 下 面 知 识 库 的 所 有 基 原 子 逻辑 结论 : 

q(Y)<—s(Y Z) Ar(Z) 

p(X)<—g(f(X)) 

s( fla), b) 

s( f(b) ,b) 

s(c.b) 

r(b) 

考虑 下 面 的 逻辑 程序 : 

flempty,X,X) 

flcons (X,Y) W,2)<— 
fCY.W,cons(X,Z)) 

给 出 每 一 个 自 顶 向 下 导出 ， 指 明 下 面 查询 的 替换 (如 例 12-31 所 示 ) : 

ask f (cons(a,cons(b,cons(c,empty))),L,empty) 

其 全 部 的 解答 有 了 哪些? 

考虑 下 面 的 逻辑 程序 : 

rd(cons(H,cons(H,T)),T) 

rd(cons(H,T),cons(H,R))< 
rd(T,R) 

给 出 一 个 自 顶 向 下 导出 ， 指 明 下 面 查询 的 所 有 替换 : 

ask rd(cons(a, cons(cons(a, X), cons(B, cons(c, Z)))), W) 

根据 上 面 的 导出 ,该 查询 的 解答 是 什么 ? 

存在 第 二 个 解答 吗 ? 如 果 存 在 ， 给 出 导出 过 程 ; 如 果 不 存在 ， 请 解释 原因 。 

考虑 下 面 的 逻辑 程序 : 

ap(emp,L,L) 

ape (H,T),LscC H.R) )<— 
ap(T,L,R) 

adj(A,B,L)= 
ap(F,c(A,c(B,E)),L) 

(a) 对 于 下 面 查询 的 一 个 解答 ， 给 出 自 顶 向 下 导出 (包括 所 有 的 替换 ): 
ask adj(b, Y, cla, c(h, clby cla, emp))))) 

Cb) 存在 其 他 的 解答 吗 ? 如 果 存 在 ， 请 解释 在 上 述 解答 的 导出 过 程 的 哪 一 步 可 做 出 不 同 的 选择 ， 
并 继续 算法 ， 得 到 另 一 个 解答 。 如 果 不 存在 另 一 个 解答 ， 请 解释 为 什么 没有 。 
(在 这 个 练习 中 ， 你 将 作为 一 台 计 算 机 ， 根 本 不 用 考虑 符号 的 含义 。 如 果 你 想 为 这 个 程序 赋 

子 一 定 的 意义 ， 你 可 以 将 ap BE append, c HVE cons, emp RE empty, adj PE adjacent .) 

本 题 的 目的 是 练习 编写 简单 逻辑 程序 。 

(a) 编写 一 个 关系 remove(E，L，R)， 当 R 是 从 列表 工 中 删除 五 的 一 个 实例 后 剩余 的 列表 时 返 
AAR. MRERBARL 的 成 员 则 该 关系 为 假 。 

Cb) 给 出 下 面 查 询 的 所 有 解答 : 
ask remove(a;|b,a,;d,a],R) 
ask remove(E,[b,a,d,a],R) 
ask remove(E,L,(b.a,d]) 
ask remove( p(X) .[a, pla), pl pla)), p(p(pla))) ],R) 
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546 C) 编写 一 个 subsequence(L1，L2) 关 系 ， 如 果 列 表 LI PRAT L2 中 的 元 素 的 有 序 子 集 则 为 真 。 
O 对 于 下 面 的 查询 .有 多 少 不 同 的 证 明 ? 
ask subsequence(La,d],[b,asdsa]) 
ask subsequence((b,a]+b.a,d,a]}) 
ask subsequence([ X.Y ].(b.a,d,a]) 
ask subsequence(S,[b.a.dsa]) 
请 解释 为 什么 有 那么 多 ? 
12.16 在 本 题 ， 你 要 为 用 户 视频 演示 设计 方案 编写 一 个 限定 子 句 知识 库 。 
假设 视频 使 用 下 面 的 关系 进行 标注 : 
segment( Segld, Duration, Covers) 
其 中 Segid 是 视频 片段 的 标识 符 。( 在 一 个 实际 的 应 用 中 ， 可 根据 它 来 抽取 视频 片段 )。Duration 
是 视频 片段 的 时 长 ( 秒 )。Covers 是 该 视频 所 涵盖 的 主题 列表 。 一 个 视频 标注 的 示例 数据 库 如 下 : 
segment(seg0,10,[ welcome ]) 
segment(seg]1,30,( skiing, views |) 
segment (seg2,50.[ welcome ,com putationalintelligence , robots |) 
segment(seg3,40, _graphics,dragons |) 
segment(seg4 ,50,[ skiing, robots |) 
一 个 演示 是 片段 的 一 个 序列 。 你 可 将 演示 表示 为 片段 标识 符 的 列表 。 
(a) 如 果 Segments 是 一 个 演示 ， 其 总 时 长 小 于 或 等 于 Martime 秒 且 MustCover 中 列 出 的 主题 均 
被 该 演示 中 的 一 个 片段 所 涵盖 ， 则 公理 化 谓词 
presentation( MustCover, Mazxtime, Segments) 
为 真 。 这 个 谓词 的 目标 是 设计 一 个 演示 ， 该 演示 涵盖 了 一 定数 量 的 主题 且 总 时 长 限定 在 给 定 的 范 
AY. 
例如 ， 查 询 
ask presentation([ welcome,skiing,robots|,90, Segs) 
应 该 至 少 返 回 下 面 两 个 解答 (其 视频 片段 顺序 可 能 不 同 ): 
presentation( [welcome , skiing , robots] .90,[seg0,seg4 }) 
presentation([ welcome, skiing , robots ],90,Lseg2,seg1 ]) 
设 为 所 有 的 符号 给 定 了 特定 的 解释 且 假 设 你 已 经 在 AILog at Prolog 中 测试 了 你 的 公理 化 ( 包 
547 括 为 你 的 查询 找 出 所 有 的 解答 )。 请 解释 为 什么 每 一 个 答案 是 一 个 解答 。 
(b) 假设 你 有 一 个 很 好 的 用 户 接口 ， 有 方法 实际 地 查看 该 演示 ， 则 请 列 出 至 少 三 个 你 想 要 但 前 面 
的 程序 没有 提供 的 东西 。( 此 问 没有 标准 答案 。 你 必须 有 创造 力 才能 得 满分 。) 
12.17 ”构建 一 个 知识 库 和 字典 (在 图 12-11 的 基础 上 ) 来 回答 诸如 图 1-2 中 的 地 理 问 题 。 对 于 每 一 个 查询 ， 
解释 其 是 如 何 得 到 解答 的 ， 或 解释 为 什么 难以 使 用 本 章 介 绍 的 工具 得 到 解答 。 
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在 发 展 一 个 能 满足 需要 的 计算 理论 的 道路 上 ， 最 重要 的 问题 是 发 展 与 语义 化 相称 的 本 
体 化 。 这 并 不 是 说 语义 问题 消失 了 ; 语义 仍 像 以 往 那样 具有 挑战 性 。 语 义 和 本 体 通过 更 高 
要 求 的 本 体 问 题 联系 起 来 ， 并 继续 像 以 往 那 样 位 于 舞台 的 中 央 。 

一 一 SmithL1996，Pp. 14] 


如 何 表达 世界 中 现存 的 知识 ， 使 其 容易 被 获取 、 调 试 、 维 护 、 传 递 、 共 享 和 推理 ? 本 
章 探 讨 如 何 明确 说 明智 能 Agent 中 符号 的 意义 ， 如 何在 基于 知识 的 调试 和 解释 中 使 用 这 些 
意义 ， 最 后 介绍 Agent 如 何 表示 自己 的 推理 以 及 如 何 利 用 这 些 表 示 来 构建 基于 知识 的 系 
统 。 正 如 在 前 面 引文 中 Smith 所 指出 的 ， 本 体 问 题 是 构建 智能 计算 Agent 的 中 心 问题 。 


13.1 知识 共享 


有 一 个 恰当 的 表示 只 是 建立 一 个 基于 知识 的 Agent 的 一 部 分 工作 。 我 们 应 该 确保 能 够 
从 多 种 不 同 来 源 获 得 知识 ， 并 且 保 证 多 种 不 同 渠 道 来 源 的 知识 间 可 以 互 操作 。 此 外 还 需要 
确保 知识 可 以 被 用 于 有 效 的 推理 。 

回想 一 下 ， 本 体 是 关于 信息 系统 中 符号 的 含义 的 规范 说 明 。 这 里 ， 信 息 系统 是 一 个 知 
识 库 或 某 种 信息 源 ， 如 温度 计 可 被 看 做 是 一 种 信息 系统 。 有 些 时 候 ， 符 号 的 含义 仅 存在 于 
知识 库 设计 者 的 脑海 中 ， 或 者 存在 于 知识 库 的 注释 中 。 现 在 越 来 越 常见 的 方式 是 ， 这 些 含 
义 的 规范 说 明 以 机 器 可 解释 的 形式 存在 。 这 个 形式 的 规范 说 明 对 于 语义 互 操作 性 (semantic 
interoperability) 一 一 即 不 同 知 识 库 在 一 起 工作 的 能 力 一 一 是 重要 的 。 

【 例 13-1] 采购 Agent 应 该 能 够 判断 网 站 中 所 宣称 的 便宜 的 “chips” 指 代 的 是 暮 片 、 
芯片 、 木 条 还 是 扑克 筹码 。 本 体 可 以 为 网 站 的 术语 提供 明确 意义 。 与 仅 使 用 符号 “chip” 不 
同 ， 遵 循 了 本 体 的 网 站 可 能 使 用 符号 ”WoodChipMixed” 该 符号 由 某 一 发 布 了 本 体 的 特 
定 机 构 定义 。 通 过 使 用 这 个 符号 并 声明 其 来 源 于 哪个 本 体 ， 可 以 有 效 地 避免 使 用 “chips” 时 
产生 的 歧义 。 网 页 的 正式 表示 可 能 使 用 “WoodChipMixed”， 而 该 符号 可 被 翻译 为 简单 的 英 
语 符号 “chip”。 如 果 另 一 个 信息 源 使 用 的 是 符号 “ChipOfWood”， 则 某 一 第 三 方 可 能 会 声 
明 在 该 信息 源 中 的 术语 “ChipOfWood” 对 应 于 我 们 的 “WoodChipMixed”， 从 而 使 得 两 信息 
源 可 以 相互 结合 。 4 

在 讨论 如 何 指 定 本 体 之 前 ， 我们 先 讨论 如 何 使 用 前 一 章 的 逻辑 (可 带 有 变量 、 项 和 关 
系 ) 来 建立 灵活 的 表示 。 这 些 灵活 的 表示 允许 增加 知识 模块 ， 包 括 在 关系 中 添加 变 元 。 

通过 为 符号 的 含义 设 定 一 个 规范 说 明 ，Agent 就 可 以 在 知识 层面 的 知识 获取 、 解 释 和 
调试 中 使 用 这 个 含义 。 


13.2 灵活 的 表示 


本 章 的 第 一 部 分 讲述 如 何 使 用 逻辑 工具 建立 灵活 的 表示 方法 。 这 些 灵 活 的 表示 是 现代 
本 体 论 的 基础 。 
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13.2.1 选择 个 体 和 关系 


给 定 一 个 逻辑 表示 语言 (如 前 一 章 中 开发 的 语言 ) 及 一 个 推理 的 世界 ， 则 知识 库 的 设 
计 者 必须 选择 引用 这 个 世界 中 的 哪些 内 容 。 也 就 是 说 ， 他 们 必须 选择 要 引用 哪些 个 体 和 
关系 。 乍 看 起 来 ， 他 们 可 以 引用 在 考察 的 世界 中 存在 的 那些 个 体 和 关系 。 然 而 ， 世 界 本 
身 并 没有 提供 关于 个 体 的 信息 。 为 本 世界 建 模 的 人 创造 了 如 何 划分 世界 为 个 体 。 建 模 者 
将 世界 划分 为 小 的 部 分 ， 从 而 使 得 Agent 能 引用 该 世界 中 对 于 手中 工作 有 意义 的 各 
部 分 。 

【 例 13-2】 在 世界 中 ， 你 可 能 认为 “红色 ”是 事物 的 合理 属性 。 之 所 以 这 样 ， 是 因为 你 
可 能 想 告 知 传 送 机 器 人 去 拿 红 色 的 包 庄 。 在 世界 中 ， 物 体 的 表面 会 吸收 一 些 频率 的 光 并 反 
射 其 他 频率 的 光 。 在 一 些 应 用 中 ， 一些 用 户 可 能 称 一 些 特定 的 反射 特性 为 “ 红 ”。 而 领域 的 
另外 一 些 建 模 者 可 能 使 用 另外 一 个 频谱 映射 ， 并 使 用 术语 粉红 、 猩 红 、 宝 五 红 和 深 红 ， 甚 
至 另 有 一 些 建 模 者 可 能 会 对 颜色 频谱 做 不 同 的 划分 ， 以 至 于 在 任何 语言 中 都 无 法 找到 对 应 
的 词语 来 描述 ， 但 是 这 种 划分 对 于 区 分 个 体 的 不 同类 别 非常 有 用 。 < 

正如 建 模 者 决定 要 表示 哪些 个 体 一 样 ， 他 们 还 需要 选择 要 使 用 的 关系 。 下 面 通过 一 系 
列 的 例子 来 说 明 如 何 选择 关系 和 个 体 的 实用 性 指导 原则 。 

【 例 13-3] 假设 你 认为 “red” 是 一 个 为 个 体 分 类 的 合适 的 属性 ， 则 可 以 把 red 作为 一 
元 关系 ， 那 么 一 个 红色 包裹 a TUSK: 

red(a) 

如 果 用 这 种 方式 表示 颜色 信息 ， 那 么 就 可 以 容易 地 发 出 “什么 是 红色 的 "询问: 

? red(X) 
返回 的 X 就 是 红色 的 个 体 。 

在 这 种 表示 方法 中 ， 不 能 询问 “ 包 庄 a 是 什么 颜色 ?”。 因 为 在 限定 子 句 的 句法 中 ， 你 
不 能 提出 下 面 的 提问 : 

ask X(a) 

因为 在 基于 一 阶 逻辑 的 语言 中 ， 谓 词 的 名 字 不 能 是 变量 。 在 二 阶 或 高 阶 逻辑 中 ， 这 可 
返回 a 的 任何 属性 ， 而 不 仅仅 是 它 的 颜色 。 

有 其 他 替换 的 方法 允许 你 询问 包 训 a 的 颜色 。 在 世界 中 没有 任何 东西 会 强制 你 设置 一 
个 谓词 red。 你 可 简单 地 说 颜色 也 是 个 体 ， 且 你 可 用 常量 red 来 表示 红颜 色 。 如 果 red 是 
一 个 常量 ， 你 可 以 使 用 谓词 color, HP color(Ind，Val) 表 示 物 理 个 体 Ind 拥有 颜色 Val., 
“DF a 是 红色 的 ”现在 可 以 写成 : 

color(a,red) 

你 所 做 的 是 重新 审视 这 个 世界 : 现在 的 世界 由 你 可 命名 的 个 体 组 成 ， 其 中 颜色 也 是 个 
体 。 此 时 在 物理 个 体 和 颜色 之 间 有 一 种 新 的 二 元 关系 color。 根 据 这 种 新 的 表达 关系 你 就 
可 以 使 用 下 面 的 查询 来 询问 “物体 a 是 什么 颜色 的 ?”: 

?color(a,C) < 

将 一 个 抽象 概念 转化 为 一 个 对 象 被 称 为 具体 化 (reify)。 在 前 面 的 例子 中 ， 我们 具体 化 
了 颜色 red, | 

【 例 13-4) 前 面 例子 的 表示 方式 好 像 没 有 什么 缺点 。 以 前 能 够 做 的 事情 现在 仍然 能 够 
做 。 与 书写 red(X) 相 比 ， 书 写 color(X，red) 并 没 增加 多 少 困难 ， 但 是 你 现在 可 以 询问 事 
物 的 颜色 了 。 因 此 ， 就 会 产生 这 样 一 个 问题 : 你 是 否 可 以 对 每 一 个 关系 做 类 似 的 处 理 ? 要 
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做 到 何 种 程度 ? ` 

正如 对 谓词 red 的 分 析 一 样 ， 你 可 以 对 例 13-3 中 的 谓词 color 做 一 个 类 似 的 分 析 。 将 
color 表示 为 一 个 谓词 ， 就 不 能 提出 “ 包 囊 a 的 哪个 属性 具有 值 red?” 这 种 问题 ， 此 问题 的 
合理 解答 是 “color”。 在 例 13-3 中 做 一 个 类 似 的 转换 ， 即 你 可 以 将 如 color 的 属性 视 作 个 
体 ， 并 创造 一 个 关系 prop， 则 “个 体 a 的 color 属性 的 值 为 re& ”可 表示 如 下 : 

propla,color,red) 

这 种 表示 支持 本 例 和 上 一 个 例子 中 所 有 的 查询 。 你 不 必 进 一 步 做 上 述 的 分 析 了 ， 因 为 
你 能 够 使 用 prop 关系 来 编写 所 有 的 关系 。 < 

个 体 - 属 性 - 值 (individual-property-value) 表 示 法 是 用 单一 的 关系 prop 实现 的 ， 其 中 : 

prop(Ind, Prop,Val) 

表示 个 体 Ind 的 属性 Prop 的 值 是 Val 。 这 被 称 为 三 元 组 表示 (triple representation) , 
因为 所 有 的 关系 都 被 表示 为 三 元 组 (triple) 。 将 三 元 组 看 做 一 个 简单 的 由 三 个 词组 成 的 句 
子 ， 则 其 第 一 个 元 素 称 为 主语 (subject) ， 第 二 个 元 素 是 动词 (verb)， 第 三 个 元 素 是 宾语 
(object). l 

三 元 组 中 的 动词 是 一 个 属性 (property) 。 属 性 p 的 域 是 个 体 的 集合 ; 当 p 是 一 个 动词 
时 ， 则 这 些 个 体能 够 作为 三 元 组 中 的 主语 。 属 性 p 的 范围 是 值 的 集合 ; Spot, x 
些 值 可 作为 三 元 组 中 的 宾语 。 

一 个 特性 (attribute) 是 一 个 属性 - 值 对 。 例 如 ， 包 于 的 一 个 特性 可 能 为 其 颜色 是 红色 。 
如 果 两 个 包 训 有 相同 的 特性 ， 即 它们 的 属性 的 值 完全 相同 ， 则 此 两 个 包 衷 相同 。 

对 于 三 元 组 表示 法 ， 有 一 些 谓词 可 能 看 起 来 过 于 简单 。 

【 例 13-5) 在 将 谓词 parcella) 其 含义 是 a 是 一 个 包 右 一 一 转换 为 三 元 组 的 表示 
形式 时 ， 看 起 来 没有 合适 的 属性 和 值 。 这 里 有 两 种 将 此 谓词 转换 为 三 元 组 表示 的 方法 。 第 
一 种 是 具体 化 包 圳 概念 来 说 明 a FE PR : 

prop(a,ty pe, parcel) 

XE, type 是 一 个 特殊 的 属性 ， 该 属性 建立 个 体 与 其 类 别 间 的 联系 。 常 量 parcel R 
示 类 别 ， 该 类 别 集合 中 的 所 有 事物 ， 包 括 实在 的 和 潜在 的 ， 都 是 包 庄 。 上 述 三 元 组 表示 个 
体 a 属于 parcel 类 别 。 

第 二 种 表示 方法 是 将 包 庄 作为 一 个 属性 ， 此 时 “a 是 一 个 包 右 ”可 记 为 ; 

propla, parcel, true) 

在 这 个 表示 中 ，parcel 是 一 个 布尔 属性 ， 当 某 事物 为 包 右 时 ， 该 事物 的 parcel 属性 值 
为 真 。 < 

布尔 属性 (Boolean property) 是 一 种 属性 ， 其 取 值 范围 是 {trxe，Jalse}， 其 中 true 和 
false 是 语言 中 的 常量 符号 。 

对 于 三 元 组 表示 法 来 说 ， 有 些 谓词 可 能 看 起 来 过 于 复杂 。 

[B] 13-6) 假设 你 希望 表示 如 下 的 关系 : 

scheduled(C,S,T,R) 

其 含义 是 课程 C 的 S 节 计 划 于 时 刻 工 在 房间 尺 开始。 例如 ,“ 课 程 cs422 的 第 2 节 将 
于 10: 30 在 房间 cc208 开始 ”可 记 为 : 

scheduled (cs422 ,2,1030,¢c208) 

为 用 三 元 组 表示 该 关系 ， 你 可 以 创建 一 个 新 的 个 体 booking HiT). All, scheduled 关系 
就 可 具体 化 为 一 个 预订 个 体 。 
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一 个 预订 有 多 个 属性 ， 即 一 个 课程 、 课 程 的 一 节 、 一 个 开始 时 间 和 一 个 房间 。 为 表示 
“课程 cs422 的 第 2 节 计 划 于 10:30 在 房间 cc208 开始 ”， 你 可 命名 该 预订 ， 如 一 个 常量 
6123, FFA: 

prop(6123,course,cs422) 

prop(6123, section,2) 

prop(6123,start_time,1030) 

prop(b123,room,cc208) 

这 种 新 的 表示 法 具有 许多 优点 。 最 重要 的 优点 是 其 模块 化 结构 ， 容易 看 出 哪个 值 从 属 
于 哪个 属性 。 也 容易 添加 新 属性 ， 如 授课 的 教师 或 者 授课 的 时 间 长 度 。 使 用 这 个 新 的 表示 
法 ， 可 容易 地 添加 如 “Fran 讲授 课程 cs422 的 第 2 节 ， 计划 于 10:30 在 房间 cc208 开始 ?或 
课程 时 间 是 50 分 钟 : 

prop(6123 ,instructor, fran) 

prop(6123,duration,50) 

如 果 使 用 scheduled 谓词 ， 则 很 难 添加 授课 教师 或 者 课程 持续 时 间 ， 因 为 这 需要 为 每 
一 个 谓词 实例 添加 一 个 额外 的 论 元 。 | 


13.2.2 图 形 化 表示 


你 可 以 使 用 图 来 解释 prop 关系 ， 其 中 关系 

prop(Ind,Prop,Val) 
使 用 节点 Ind 和 Val 及 该 两 节点 间 带 有 标签 Prop 的 边 来 描述 ， 称 这 种 图 为 语义 网 络 (se- 
mantic network) 。 给 定 这 样 一 个 图 形 化 表示 ， 则 有 一 个 使 用 prop 关系 的 直接 到 知识 库 的 
映射 。 

【 例 13-7] 图 13-1 表示 了 传送 机 器 人 的 一 个 语义 网 络 ， 该 网 络 表 示 了 机 器 人 可 能 有 
的 适用 于 特定 计算 机 的 一 类 知识 。 该 网 络 中 表示 的 部 分 知识 如 下 : 


iad 
| sam | 型 号 mon | 





[lemon dise | 

Typ WEA y” 

a 
| 轻 | 

, EF pe 颜色 
anaa E E 


图 13-1 语义 网 


prop(comp_2347 ,owned_by. fran) 
prop(comp_2347 ,managed_by,sam) 
prop(comp_2347 , model, lemon_laptop_10000) 
prop(comp_2347 „brand ,lemon_com puter) 
prop(comp_2347,has_logo,lemon_disc) 
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prop(comp_2347 ‚color, green) 

proplcomp_2347 ‚color, yellow) 

prop(comp_2347 ‚weight, light) 

prop fran,has_of fice,r107) 

prop(rl07,in_building ,comp_sci) < 

该 网 络 也 展示 了 知识 是 如 何 组 织 的 。 例 如 ， 可 很 容易 地 看 出 编号 为 2347 的 计算 机 被 
某 人 (Fran) 拥 有 ， 此 人 的 办 公 室 (r107) 在 建筑 物 comp_sci 中 。 图 中 明显 的 直接 标定 可 被 人 
类 和 机 器 使 用 。 


这 种 图 形 符号 具有 多 个 优点 : 
。 不 需要 学 习 特定 逻辑 的 句法 就 可 以 容易 地 看 出 相应 的 关系 。 图 形 符号 可 帮助 知识 
库 的 建造 者 组 织 他 们 的 知识 。 


。 你 可 以 忽略 节点 的 标签 ,这些 标签 只 是 些 无 意义 的 名 字 。 例 如 ， 例 13-6 中 的 名 字 
6123， 或 图 13-1 中 的 comp_2347。 你 可 以 把 这 些 节点 视 为 空白 ; 如 果 你 必须 将 它 
们 映射 到 逻辑 形式 ， 则 可 以 为 它们 任意 指定 一 个 名 字 。 

三 元 组 的 简明 语言 

Turtle 是 表示 三 元 组 的 简单 语言 。 它 是 为 语义 网 络 而 创造 的 语言 之 一 。 它 也 用 于 资源 
描述 框架 (Resource Description Framework，RDF) 的 句法 分 析 一 一 其 中 RDF 是 从 一 个 相 
似 的 语言 Notation 3 或 N3 扩展 而 来 。 

在 Turtle 和 RDF 中， 任何 事物 一 一 包括 个 体 、 类 别 和 属性 一 一 都 是 资源 。 统 一 资源 
标识 符 (Uniform Resource Identifier，URI) 可 以 用 来 唯一 地 标识 任何 物体 。URI 标记 写 在 
尖 括 号 内 ， 它 往往 有 一 个 URL 的 形式 ， 因 为 每 个 URL 都 是 唯一 的 。 例 如 ，《http://ais- 
pace. org) 可 以 是 一 个 URI。 在 URI 中 ,“#?” 表 示 指 向 网 页 中 的 个 体 。 例 如 ，《〈http:// 
cs. ube. ca/~ poole/ foaf. rdf# david) 表 示 网 页 http: //cs. ube. ca/~ poole/ foaf. rdf 中 的 个 
体 david。URI( 表 示 当 前 文档 ， 因 此 ，URI( # comp_2347) 表 示 一 个 在 当前 文档 中 定义 
的 个 体 。 

三 元 组 可 以 简单 地 记 为 : 

Subject Verb Object 
HeH, Subject 和 Verb 都 是 URI, mi Object 可 以 是 一 个 URI 或 一 个 文字 (字符 串 或 数字 ) 。 
Verb 指示 属性 。Object 是 Subject 的 属性 Verb 的 值 。 

【 例 13-8) 例 13-7 中 的 三 元 组 可 用 Turtle 写 为 如 下 形式 : 

( #comp_2347)( # owned _ by) ( # fran). 

( # comp _ 2347)( # managed _ by)< # sam). 

(#comp _ 2347)< # model) < # lemon _ laptop _ 10000). 

(#comp _ 2347) # brand) < # lemon _ computer). 

(comp _ 2347)( # has _ logo)! #]emon _ disc). 

(#comp _ 2347)¢ # color) ( 4 green). 

(#comp _ 2347)< # color) ( # yellow). 

( # fran)< # has _ office) ( #1107). 

(#1107)(#serves _ building)< # comp _ sci). 

其 中 的 标识 符 “fran? 不 代表 个 体 的 名 称 。 如 果 希 望 表示 某 人 的 名 字 叫 Fran, WAT 
记 为 : 


(# fran) < # name)"Fran". ai 
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在 Turtle 语言 中 有 一 些 常用 的 缩 略 语 。 喜 号 分 组 具有 相同 的 主语 和 谓词 的 对 象 ， 即 
S V O,,0O). 
是 如 下 表示 的 简写 : 

S Y O. 

$V -Ox 

分 号 分 组 具有 相同 主语 的 动词 -宾语 对 ， 即 

S Vi OIV Q: 

是 下 面 的 简写 : 

S Vy Ns 

S Vz Q. 

方 括号 用 于 定义 一 个 没有 标识 符 的 个 体 。 该 无 名 称 的 资源 可 用 于 某 三 元 组 的 宾语 ,但 
不 能 被 引用 。 喜 号 和 分 号 均 可 用 于 表示 这 类 资源 的 属性 。 因 此 ， 

[Vi O;:V: O] 
表示 一 个 体 ， 其 属性 和 的 值 为 O ， 属 性 Vz 的 值 为 0;。 这 种 无 名 称 个 体 的 描述 有 时 被 称 
为 框架 (frame) 。 动 词 有 时 被 称 为 棋 (slot)， 而 宾语 被 称 为 填充 物 (filler)。 

【 例 13-9) 下 面 的 Turtle 语句 

¢comp_3645)< # owned_by) ( # fran); 

( # color) < # green) , { # yellow) ; 
( # managed_by)[( # occupation) ( # sys_admin) ; 
(#serves_building) < # comp_sci) ]. 
表明 (#fran? 拥 有 (comp_3645》， 其 颜色 是 绿色 和 黄色 ， 且 其 被 一 个 资源 所 管理 ， 而 该 资 
源 的 工作 是 系统 管理 、 工 作 地 点 是 comp_sci。 

其 是 如 下 三 元 组 的 简写 : 

(comp_3645)( # owned_by)< # fran). 

(comp_3645)(# color)< # green). 

<comp_3645)<¢ # color) ( # yellow}. 

<comp_3645)< # managed_by)¢i2134). 

(i2134)? # occupation) ( # sys_admin). 

(i2134)< # serves_building) ( # comp_sci). 

不 过 ， 其 中 的 URI(i2134) 不 能 在 任何 地 方 被 引用 。 < 

对 于 读者 来 说 ， 其 很 难 知道 设计 者 设计 一 个 特定 的 URI( 如 《# name) AAAs [el 
样 也 很 难 知道 这 个 术语 的 使 用 是 如 何 与 其 他 人 对 同一 术语 的 使 用 发 生 关联 的 。 然 而 ， 人 们 
已 经 对 一 些 特定 术语 的 含义 达成 了 共识 。 例如， 属性 《http://xmlns. com/foaf/0. 1/# 
name) 是 对 一 个 对 象 的 名 称 的 标准 定义 。 因 此 ， 如 果 我 们 编写 如 下 语句 : 

(# fran) (http; //xmlns. com/foaf/0. 1/ # name) "Fran". 

则 我 们 的 意思 是 特定 的 name 属性 就 遵循 上 述 定义 。 

URL http://xmlns. com/foaf/0.1/ 中 的 内 容 无 关 紧 要 ， 只 要 使 用 URI ¢ http. // 
xmlns. com/foaf/0. 1/ # name) 的 人 的 意图 均 是 要 表达 同一 个 属性 就 可 以 了 。 一 个 URL, 
在 编写 它 时 ， 仅 是 重 定向 到 一 个 网 页 。 然 而 , “friend of a friend” m A GX EH “foal? HF 
义 ) 使 用 该 命名 空间 来 表达 某 些 事情 。 这 样 做 可 使 事情 变 得 简单 些 ， 因 为 人 们 都 在 这 样 
使 用 。 
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在 Turtle 中 ， 通 过 使 用 "@prefix" 声 明 ， 可 以 使 用 简化 的 “name:? 来 替换 一 个 URL 和 
尖 插 号 。 例 如 ， 作 如 下 声明 : 

@prefix foaf: (http://xmlns. com/foaf/0. 1/#) 
W“foaf; name” 就 表示 了 《http://xmlns. com/foaf/0. 1/# name) Hifi SH. BMH. A 
如 下 声明 

@ prefix; ( # ) 
我 们 就 可 用 : color #7 <H color), 

在 Turtle 中 也 允许 为 没有 具体 化 的 函数 的 参数 加 括号 。 它 还 允许 使 用 缩写 “a” 表 示 
“rdf; type”， 但 我 们 在 这 里 不 遵循 这 一 惯例 。 


13.2.3 原始 关系 与 导出 关系 


通常 ， 你 对 域 的 了 解 要 比 对 事实 库 的 了 解 更 多 ; 你 知道 一 些 一 般 规则 ， 根 据 这 些 规则 
你 可 以 导出 其 他 的 事实 。 哪 些 事 实 需 要 明确 给 出 ， 哪 些 事 实 可 以 使 用 规则 导出 ， 这 是 设计 
和 建造 知识 库 时 需要 做 出 的 选择 。 

原始 知识 (primitive knowledge) 是 使 用 事实 明确 定义 的 知识 。 导 出 知识 (Cderived 
knowledge) 是 可 从 其 他 知识 中 推断 出 来 的 知识 。 导 出 知识 通常 使 用 规则 来 明确 规定 。 

规则 的 使 用 可 以 使 知识 的 表示 更 加 简练 。 导 出 关系 允许 从 对 域 的 观察 中 得 出 结论 。 这 
是 很 重要 的 ， 因 为 你 不 会 直接 观察 到 域 中 的 所 有 事情 。 对 域 的 了 解 大 多 来 自 以 观察 和 一 般 
知识 为 基础 的 推理 。 


知识 库 与 面向 对 象 程序 设计 中 的 类 


基于 知识 的 系统 中 的 “个 体 ”与 “类 别 ” 的 使 用 与 面向 对 象 程序 设计 (object-oriented pro- 
gramming，OOP) 语 言 (如 Smalltalk 和 Java) 中 的 “对 和 象 " 和 “类 ”的 使 用 非常 相似 。 对 此 你 
不 必 过 于 惊讶 ， 因 为 它们 在 历史 上 就 相互 联系 。 它 们 之 间 有 重要 的 不 同 ， 如 果 直 接 比 拟 它 
们 ， 那 么 这 些 不 同 往往 会 造成 更 多 的 困扰 而 不 是 提供 更 多 的 帮助 : 
。 OOP 中 的 对 象 是 可 以 计算 的 对 象 ; 它们 是 数据 结构 和 相 联 系 的 程序 。Java 中 的 对 
象 “person" 不 是 一 个 真实 的 人 。 然 而 ， 知 识 库 (KB) 中 的 个 体 是 现实 世界 中 的 (有 代 
表 性 的 ) 物 体 。KB 中 的 个 体 “person” 可 以 是 一 个 真实 的 人 。 个 体 “chair” 可 以 是 一 
个 真实 的 椅子 ， 你 可 以 坐 在 上 面 ; 如 果 你 挤 到 它 ， 这 个 “chair” 可 以 伤 到 你 。 你 可 
以 给 Java 中 的 “chair" 对 象 发 送 消息 ， 并 从 它 获得 答案 ， 然 而 现实 世界 中 的 椅子 并 
不 理会 你 对 它 说 的 话 。KB 通常 不 是 用 来 与 椅子 进行 交互 ， 而 是 用 来 推理 关于 椅子 
的 信息 的 。 真 实 的 椅子 只 会 停留 在 那里 ， 直 到 它 被 一 个 物理 的 Agent 移动 了 才 会 
AFRA: 
。 在 KB 中 ， 一 个 对 象 的 表示 仅仅 是 在 一 个 (或 儿 个) 抽象 水 平 上 的 近似 。 真 实 的 对 
象 往往 要 比 表示 出 的 复杂 得 多 。 我 们 通常 不 去 表示 一 个 椅子 中 的 纤维 个 体 。 在 
OOP 系统 中 ， 则 仅 有 表示 出 的 对 象 的 属性 。 系 统 能 够 知道 关于 一 个 Java 对 象 的 所 
有 情况 ， 而 不 知道 真实 的 个 体 。 


。 Java 中 的 类 结构 用 来 表示 设计 的 对 象 。 系 统 分 析 员 或 程序 员 来 创建 一 个 设计 。 例 


如 ， 在 Java 中 ， 一 个 对 象 仅 是 最 低级 别 的 一 个 类 成 员 。 在 Java 中 没有 多 重 继承 的 
概念 。 真 实 对 象 并 没有 很 好 地 得 到 表达 。 一 个 人 可 以 是 一 个 是 球 教练 、 一 个 数学 
家 或 是 一 位 母亲 。 
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。 计算 机 程序 使 用 的 数据 结构 不 能 有 不 确定 性 ; 它 必 须 选 择 使 用 特定 的 数据 结构 。 
然而 ， 现 实 世界 中 的 事物 的 类 型 对 于 我 们 来 说 具有 不 确定 性 。 

。 实际 中 ，KB 中 的 模型 表示 不 能 执行 任何 操作 。 在 OOP 系统 中 ， 对 象 完 成 计算 工 
作 。 在 KB 中 ,仅仅 是 一 个 表示 ， 即 其 仅 是 引用 了 世界 中 的 一 个 对 象 。 

。 尽管 面向 对 象 建 模 语言 ， 如 UML, TATRA 人 KB， 但 这 并 不 一 定 是 最 佳 选 择 。 
一 个 好 的 OO 建 模 工具 提供 了 一 些 功能 以 帮助 构建 好 的 设计 。 然 而 ， 我 们 要 建 模 
的 世界 可 能 根本 没有 一 个 好 的 设计 。 试图 为 一 个 凌乱 的 世界 构建 一 个 好 的 设计 模 
式 可 能 没有 什么 益处 。 l 


一 个 使 用 导出 知识 的 标准 方法 是 将 个 体 划分 为 类 。 我 们 将 通用 属性 赋予 类 ， 从 而 使 得 
个 体 可 以 继承 类 的 属性 。 我 们 将 个 体 划分 为 类 的 原因 是 类 的 成 员 要 么 具有 共同 的 特性 ， 要 
么 具有 共同 且 有 意义 的 属性 (参考 后 文 的 “ 亚 里 士 多 德 定义 ”)。 l 

类 (class) 是 那些 实际 的 或 潜在 的 属于 该 类 的 个 体 的 集合 。 逻 辑 上 ， 这 是 一 个 内 酒 
(intensional) 集 合 ， 由 一 个 特征 函数 (characteristic function) 定 义 ， 如 果 一 个 体 属于 该 类 则 
其 特征 函数 为 真 ， 否 则 为 假 。 另 一 个 可 选 方法 是 外 延 (extensional) 集 合 ， 其 由 属于 该 类 的 
成 员 列 表 定 义 。 

例如 ,，“ 椅 子 ” 类 是 所 有 可 称 为 椅子 的 事物 的 集合 。 我 们 不 希望 将 是 椅子 的 事物 作为 该 
集合 的 定义 ， 因 为 尚未 做 好 的 椅子 也 属于 椅子 类 。 我 们 不 希望 两 个 类 仅 因 为 有 相同 的 成 员 
而 等 价 。 例 如 ， 绿 色 的 独 角 兽 类 和 高 度 恰好 为 124 米 的 椅子 类 是 不 同 的 类 ， 即 使 它们 含有 
相同 的 元 素 ; 这 两 个 集合 均 为 空 。 

依据 类 的 定义 ,任何 可 以 被 描述 的 集合 均 可 成 为 一 个 类 。 例 如 ， 包 含 数字 17 的 集合 、 
伦敦 塔 和 凯撒 大 帝 的 左 脚 都 可 以 是 一 个 类 ， 但 这 些 类 不 是 很 有 用 。 一 个 自然 类 (natural 
kind) 是 使 用 该 类 比 不 使 用 该 类 可 更 简洁 地 描述 事物 的 那些 类 。 例 如 ,“ 哺 乳 动物 "是 一 个 
自然 类 ， 对 哺乳 动物 共有 特性 的 描述 形成 一 个 知识 库 ， 使 用 这 个 知识 库 要 比 不 使 用 知识 
库 、 重 复 描述 哺乳 动物 的 共同 特性 更 加 简洁 。 

我 们 使 用 type 属性 来 表示 “是 一 个 类 的 成 员 ”。 从 而 ， 在 限定 子 句 语言 中 有 : 

prop(X ,type,C) 
表示 个 体 X 是 类 C 的 一 个 成 员 。 

创建 RDF 和 RDF 模式 的 人 使 用 的 属性 正 是 我 们 在 这 里 为 表达 类 的 成 员 关 系 所 需要 的 
属性 。 在 Turtle 语言 中 ， 我 们 可 以 定义 如 下 缩写 : 

@ prefix rdf; (http; //www. w3. org/1999/02/22-rdf-syntax-ns # >. 

@prefix rdfs; (http; //www. w3. org/2000/01/rdf-schema # ). 

给 定 上 述 声 明 rdf:type 表示 属性 type， 该 属性 将 个 体 与 其 所 属 的 类 关联 起 来 。 通 过 
引用 URI 中 的 type 的 定义 ， 这 就 变 成 了 一 种 标准 定义 ， 其 能 够 被 他 人 所 用 ， 且 能 区 分 于 
“type” 的 其 他 含义 。 

类 间 的 rdfs:subClassOf 属性 指明 了 一 个 类 是 另 一 个 类 的 子 集 。 在 Turtle 中 

S rdfs;subClassOf C. 
表示 类 S 是 类 C 的 子 类 。 从 集合 的 角度 来 说 ， 这 就 意味 着 S 是 C 的 一 个 子 集 。 也 就 是 说 ， 
类 S 中 的 每 一 个 体 都 是 类 C 中 的 个 体 。 

【 例 13-10] 在 例 13-7 中 明确 规定 了 计算 机 comp_2347 的 商标 是 一 个 柠檬 盘 (lemon 
disc) 。 你 可 能 知道 所 有 的 Lemon 牌 计 算 机 都 使 用 这 个 商标 。 因 此 ， 另 一 种 表示 方法 是 将 
该 商标 与 lomon_computer 联系 起 来 ， 然 后 再 导出 comp_2347 的 商标 。 这 个 表示 法 的 优点 
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在 于 当 你 发 现 另 一 台 Lemon 牌 的 计算 机 时 ， 你 可 以 推导 出 它 的 商标 。 
在 Turtle 中 ， 语 句 
:lemon_computer rdfs;subClassOf:computer. 


:lemon_laptop_10000 rdfs;subClassOf: lemon_computer. 


:comp_2347 rdf:type:lemon_laptop_10000. 
说 明 一 个 lemon 牌 计 算 机 是 一 种 计算 机 ， 一 个 lemon laptop 10000 是 一 个 lemon 牌 计算 
机 ， 及 comp_2347 是 一 个 lemon laptop 10000 型 的 计算 机 。 一 个 扩展 的 例子 如 图 13-2 所 
示 ， 其 中 带 阴 影 的 矩形 表示 类 ， 从 类 发 出 的 箭头 不 是 类 的 属性 而 是 类 成 员 的 属性 。 < 


rdfs:subClassOf 






(工作 地 点 ) 被 管理 
| comp_sci | 


in_building 属于 
办 公 地 点 | fran | 


13-2 ”允许 继承 的 语义 网 络 


类 型 和 子 类 之 间 的 关系 可 以 写成 一 个 限定 子 句 的 形式 : 

prop (X,typeC)<— 
prop(X,type,S) A 
prop(S,subClassOf,C) 

你 可 以 把 type 和 subClassOf 看 做 是 一 种 允许 属性 继承 (property inheritance) 的 特殊 
属性 。 属 性 继承 是 指 在 类 的 层次 上 确定 了 一 个 属性 的 值 时 ， 类 的 成 员 能 够 继承 它 。 如 果 类 
c 的 所 有 成 员 的 属性 zp 的 值 为 w， 则 在 Datalog 中 可 写 为 : 

prop (Ind, pv)<— 

prop (Indstype,c). 

该 规则 与 前 面 提 到 的 将 类 型 与 子 类 型 联系 起 来 的 规则 一 起 可 用 于 属性 的 继承 。 

LB 13-11〗 所 有 lemon 牌 计算 机 都 有 一 个 柠 榜 盘 作为 商标 ， 其 颜色 为 黄色 和 绿色 ( 参 
见 图 13-2 中 的 logo 和 color 箭头 )。 这 可 使 用 下 面 的 Datalog 程序 来 表示 : 


prop (X,has_logo,lemon_disc)<— 


prop(X,type,lemon_computer). 
prop (X color, green)<— 
prop(X,type,lemon_computer). 
prop (X color, yellow)< 
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prop(X,type,lemon_computer). 

可 从 上 述 子 句 中 导出 的 prop 关系 本 质 上 与 可 从 图 13-1 中 的 无 层次 的 语义 网 络 中 导出 
的 结果 一 致 。 通 过 该 结构 化 的 表示 法 ， 在 增加 一 个 新 的 Lemon Laptop 10000 型 计算 机 时 ， 
你 只 需 声 明 其 为 一 个 Lemon Laptop 10000 型 计算 机 ， 而 其 颜色 和 商标 属性 均 可 通过 继承 
关系 导出 。 < 

RDF 和 Turtle 中 没有 限定 子 句 。 在 这 些 语言 中 ， 类 的 成 员 关 系 不 表示 为 谓词 ， 而 是 
表示 为 集合 。 为 表示 集合 S 的 所 有 元 素 对 于 谓词 p 都 取 值 vw， 我们 可 以 说 S 是 对 于 谓词 p 
来 说 其 值 为 v 的 所 有 事物 的 一 个 子 集 。 

【 例 13-12】 为 说 明 所 有 的 lemon 牌 计算 机 都 有 一 个 柠 榜 盘 商标 ， 我 们 说 lemon 牌 计 
算 机 是 属性 has_logo 的 取 值 为 lemon_disc 的 所 有 事物 集合 的 一 个 子 集 。 

这 个 内 容 的 一 个 表示 如 图 13-3 所 示 。 其 中 , :computer 和 :logo 都 是 类 。:lemon_disc 是 
类 :logo 的 成 员 。:has_logo 是 一 个 属性 ， 甚 域 为 :computer， 其 值 域 是 :logo。:lemon 
computer 是 :computer 的 一 个 子 类 。 它 也 是 :has_logo 属性 为 :lemon_disc 的 所 有 个 体 的 集 
合 的 一 个 子 类 ，。 
| @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>. 


@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>. 
@prefix owl: <http://www.w3.org/2002/07/owl#>. 




















@prefix : <#>. 

: computer rdf:type rdfs:Class. 
: logo rdf:type rdfs:Class. 
:lemon_disc rdf:type :logo. 
:has_logo 


rdf: type rdf:Property ; 
rdfs:domain :computer ; 
rdfs:range :logo. 

: lemon_computer 
rdf :type rdfs:Class ; 
rdfs:subClassOf :computer ; 
rdfs:subClassOf 

owl: ObjectHasValue(:has_logo :lemon_disc), 








图 13-3 ij 13-12 的 Turtle 表示 


owl: ObjectHas Value 是 OWL( 参 见 下 面 的 解释 ) 类 的 构造 晒 数 ， 从 而 owl: ObjectHasValue 
(:has_logo:lemon_disc) 是 属性 :has_logo 的 值 为 :lemon_disc 的 所 有 个 体 的 类 。 < 

对 于 决定 哪些 应 是 原始 的 ， 哪 些 应 是 导出 的 ， 有 如 下 一 些 有 用 的 一 般 原则 : 

。 当 将 一 个 特性 关联 到 一 个 体 时 ， 选 择 最 一 般 的 类 C， 使 得 该 个 体 属 于 类 C H% C 
的 所 有 成 员 均 有 该 特性 ， 同 时 该 特性 与 类 C 相关 联 。 可 以 使 用 继承 来 为 该 个 体 和 
类 C 的 所 有 成 员 导 出 特性 。 这 种 表示 方式 往往 能 使 知识 库 更 加 简洁 ， 并 且 意 味 着 
可 以 容易 地 添加 新 个 体 ， 原 因 是 这 些 新 个 体 如 果 属 于 类 C 则 它们 就 自动 地 继承 了 
该 类 的 特性 。 

。 不 要 将 类 的 或 有 特性 关联 到 类 上 。 或 有 特性 (contingent attribute) 是 其 值 随 环境 的 
变化 而 变化 的 一 类 特性 。 例 如 ， 在 当前 的 情况 下 ， 有 可 能 购买 的 所 有 的 计算 机 都 
装 在 棕色 盒子 中 。 然 而 ， 将 此 作为 一 个 特性 关联 到 computer 类 却 不 是 一 个 好 主 
意 ， 因 为 对 于 购买 的 其 他 的 计算 机 这 一 点 不 一 定 成 立 。 
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。 公理 化 的 因果 方向 。 如 果 要 在 原始 原因 和 原始 结果 间 做 出 选择 ， 则 选择 原始 原因 。 
这 样 做 ， 在 时 域 发 生变 化 时 ， 信 息 会 更 可 能 保持 稳定 。 


13.3 ”本体 与 知识 共享 


构建 大 型 的 基于 知识 的 系统 是 很 复杂 的 ， 原 因 如 下 : 

1) 知识 往往 来 自 多 种 渠道 ， 需 要 集成 。 此 外 ， 这 些 知识 来 源 可 能 对 世界 做 了 不 同 的 
划分 。 通 常情 况 是 ， 知 识 来 自 不 同 的 领域 ， 而 这 些 领域 各 自 有 独特 的 术语 且 根 据 自 己 的 需 
要 对 世界 做 了 划分 。 

2) 系统 随 着 时 间 的 推移 而 演化 ， 很 难 预测 出 在 将 来 应 作出 的 明显 差别 。 

3) 参与 设计 知识 库 的 人 必须 选择 要 表示 出 哪些 个 体 和 关系 。 世 界 并 不 是 划分 为 个 体 ; 
对 世界 进行 划分 由 智能 Agent 完成 ， 这 也 是 其 理解 世界 的 方式 。 设 计 知识 库 的 人 应 该 在 对 
世界 的 划分 上 达成 一 致 。 

4) 通常 ， 记 住 自己 定义 的 符号 的 含义 就 很 难 了 ,更 不 用 说 去 弄 清楚 他 人 定义 的 符号 
的 含义 了 。 这 一 点 有 两 方面 的 含义 : 

。 给 出 一 个 在 计算 机 中 使 用 的 符号 ， 确 定 其 含义 ; 

。 给 出 某 人 头脑 中 的 一 个 概念 ， 确 定 应 该 使 用 哪个 符号 来 表示 它 ; 也 就 是 说 ， 确 定 

该 概念 是 否 已 经 使 用 ， 如 果 已 经 使 用 ， 则 和 弄 清楚 其 当前 的 符号 表示 。 

为 了 共享 和 传递 知识 ， 制 定 一 个 共同 的 词汇 表 并 统一 词汇 的 含义 是 十 分 重要 的 。 

概念 化 (conceptualization) 是 在 计算 机 使 用 的 符号 ( 即 词 汇 ) 与 世界 中 的 个 体 和 关系 之 
间 的 映射 。 它 为 世界 提供 了 一 个 特定 的 抽象 ， 并 为 该 抽象 提供 了 符号 表示 。 对 于 小 型 知 
识 库 ， 这 种 概念 化 可 以 存在 于 设计 者 的 头脑 中 ， 或 者 可 以 使 用 自然 语言 在 文档 中 给 予 确 
定 。 这 种 非 形式 化 的 概念 化 表示 不 适用 于 大 型 系统 一 一 在 大 型 系统 中 必须 共享 这 种 概 
念 化 。 

在 哲学 范畴 中 ， 本 体 论 Contology) 研 究 的 是 存在 什么 。 在 人 工 智 能 范畴 中 ， 本 体 是 一 
个 信息 系统 中 符号 含义 的 规范 。 也 就 是 说 ， 本 体 是 一 个 概念 化 的 规范 。 它 是 假设 存在 哪些 
个 体 和 关系 以 及 与 之 相关 的 术语 的 规范 。 通 常 ， 它 指定 个 体 可 被 归于 哪些 类 型 ， 将 使 用 哪 
些 属性 ， 并 给 出 一 些 限制 词汇 使 用 的 公理 。 

【 例 13-13) 关于 个 体 的 能 够 出 现在 地 图 上 的 本 体 可 以 明确 符号 “ApertmentBuilding” 
表示 公寓 楼 。 本 体 并 不 定义 一 座 公寓 楼 ， 但 它 会 对 公寓 楼 有 足够 的 描述 从 而 使 得 其 他 人 能 
够 理解 这 个 定义 。 我 们 希望 那些 倾向 于 使 用 不 同 符号 的 人 能 够 使 用 该 本 体 来 找到 合适 使 用 
的 符号 (参见 图 13-4)。 多 个 人 能 够 一 致 地 使 用 这 些 符号 。 本 体 还 应 能 让 人 们 检查 符号 的 含 
义 。 也 就 是 说 ， 对 于 一 个 概念 ， 他 们 希望 能 够 找到 对 应 的 符号 并 使 用 那个 符号 ， 且 他 们 希 
望 能 够 确定 其 含义 。 

本 体 中 可 能 给 出 了 一 些 公 理 来 限制 某 些 符号 的 使 用 。 例 如 ， 本 体 可 以 指定 公寓 楼 是 大 
楼 ， 而 大 楼 是 人 工 建 造 的 物体 。 它 可 能 给 出 了 大 楼 大 小 的 限制 ， 从 而 使 得 鞋 盒 和 城市 都 不 
属于 大 楼 。 本 体 也 可 能 说 明 一 个 大 楼 不 能 同时 出 现在 两 个 地 理 上 分 散 的 地 点 (所 以 如 果 你 
把 大 楼 的 一 部 分 移动 到 不 同 的 位 置 ， 则 该 大 楼 已 经 不 再 是 一 个 单一 的 大 楼 ) 。 因 为 公寓 楼 
是 大 楼 ， 所 以 上 述 对 大 楼 的 限制 也 适用 于 公寓 楼 。 < 
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图 13-4 从 概念 化 映射 到 符号 


语义 网 

语义 网 (semantic web) 是 允许 将 机 器 可 解释 的 知识 分 布 到 万 维 网 上 的 一 种 方法 。 网 站 
可 提供 被 计算 机 使 用 的 信息 ， 而 不 是 仅 能 提供 让 人 阅读 的 HTML 页 面 。 

在 最 基本 的 层次 上 ，XML(the Extensible Markup Language) 提供 了 一 个 为 机 器 的 阅 
读 而 设计 的 句法 ， 且 该 句法 也 可 供 人 阅读 。 它 是 一 个 基于 文本 的 语言 ， 其 中 的 项 使 用 分 屋 
的 方式 来 标注 。XML 的 名 法 可 以 很 复杂 ;但 在 最 简单 的 层面 上 ， 标 注 或 者 以 (tag…/) 的 
形式 存在 ， 或 者 以 (tag…)…《/tag) 的 形式 存在 。 

URI(Uniform Resource Identifier) 用 来 唯一 标识 一 个 资源 。 资 源 是 可 以 被 唯一 标识 的 
任何 事物 。 一 个 URI 是 指示 了 一 个 资源 的 字符 串 ， 如 一 个 网 页 、 一 个 人 或 一 个 公司 。URI 
通常 使 用 网 络 地 址 的 句法 。 

RDF( Resource Description Framework) 是 一 个 建立 在 XMIL 上 的 语言 ， 提 供 了 个 体 - 
属性 - 值 的 三 元 组 。 

RDF-S(RDF Schema) 允许 你 使 用 其 他 资源 ( 妨 使 用 subClassO 〇 Of) 来 定义 资源 (也 包括 属 
性 )。RDF-S 也 可 以 限制 域 和 属性 的 范围 ， 并 提供 了 容器 (集合 、 序 列 及 可 选项 一 一 其 中 必 
有 一 个 为 真 ) 。 

RDF 允许 句子 使 用 其 自己 的 语言 具体 化 。 这 意味 着 它 可 以 表示 任意 的 逻辑 公式 ， 因 
此 通常 不 可 判定 。 不 可 判定 未 必 是 一 件 坏事 ;， 它 只 是 意味 着 你 不 能 确定 计算 可 能 需要 的 时 
间 。 带 有 函数 符号 的 简单 逻辑 程序 及 几乎 所 有 的 编程 语言 都 是 不 可 判定 的 。 

OWL(Web Ontology Language) 是 万 维 网 的 本 体 语 言 。 它 定义 了 具有 固定 解释 的 一 些 
类 和 属性 ， 这 些 类 和 属性 可 用 于 描述 类 、 属 性 和 个 体 。 它 有 内 置 的 判定 个 体 、 类 和 属性 等 
价 的 机 制 ， 另 外 还 有 对 域 、 属 性 范围 和 其 他 的 属性 约束 的 限制 (如 传递 性 和 基数 性 ) 。 

人 们 己 对 构建 大 型 的 通用 本 体 做 出 了 一 些 努 力 ， 如 cyc(www.cyc.com), Fit, PU 
语义 网 的 目标 是 将 各 个 团体 聚拢 到 本 体 上 来 。 任 何人 都 可 以 建立 一 个 本 体 。 想 要 建立 一 个 
知识 库 的 人 可 以 使 用 现 有 的 本 体 ， 也 可 开发 他 们 自己 的 本 体 一 一 通常 都 是 建立 在 现存 本 体 
的 基础 上 。 因 为 获得 语义 互 操作 性 是 知识 库 建立 者 的 意愿 ， 所 以 公司 和 个 体 应 该 尽量 为 他 
们 的 领域 采用 标准 的 本 体 ， 或 者 开发 一 个 从 他 们 的 本 体 到 其 他 本 体 之 间 的 映射 。 
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本 体 通 常 独立 于 特定 的 应 用 ， 并 且 本 体 的 符号 由 多 个 开发 社团 共同 确定 。 一 个 本 体 由 
下 面 几 部 分 组 成 : : 
。 知识 库 中 要 描述 事物 类 别 的 词汇 (包括 类 和 属性 ); 
。 类 间 的 组 织 ， 如 使 用 subClassOf 或 subPropertyOf， 或 使 用 亚 里 士 多 德 定 义 建立 
类 间 的 层次 结构 ; 
。 限制 一 些 符号 的 含义 以 更 好 地 反映 它们 的 含义 的 公理 ， 如 一 些 属性 是 传递 的 、 域 
和 范围 是 受 限 制 的 ， 或 对 个 体 的 一 个 属性 的 取 值 个 数 的 限制 。 有 些 时 候 ， 一 些 关 
系 由 更 基本 的 关系 来 定义 ， 但 最 终 是 建立 在 原始 关系 上 。 

本 体 并 不 描述 在 设计 时 尚 不 知道 的 个 体 。 例 如 ， 描 述 建 筑 物 的 本 体 通 常 不 包括 实际 的 
建筑 物 。 本 体 可 以 描述 固定 的 和 应 该 共享 的 个 体 ， 如 一 周 中 的 几 天 ， 或 一 些 颜色 。 

【 例 13-14] 考虑 一 个 设计 目的 是 寻找 住宿 的 交易 Agent。 用 户 可 以 使 用 这 样 的 一 个 
Agent 来 描述 他 们 期 望 的 住宿 条 件 。 交 易 Agent 可 以 搜索 多 个 知识 库 以 找到 合适 的 住所 ， 
或 在 有 合适 的 住所 时 通知 用 户 。 本 体 需 要 为 用 户 明 确 符 号 的 含义 并 允许 知识 库 间 的 互 操 
作 。 本 体 提供 了 一 种 媒介 将 用 户 需 求 和 知识 库 连 接 在 一 起 。 

在 这 样 的 领域 中 ， 房 屋 和 公寓 楼 可 能 都 是 居民 楼 。 尽 管 推荐 租 一 套房 子 还 是 推荐 租 一 个 
公寓 楼 中 的 一 套 公寓 应 该 很 慎重 ， 但 为 没有 明确 说 明 想 租 整 个 公寓 楼 的 人 ， 推 荐 租 整个 公寓 
楼 却 可 以 不 那么 慎重 。 一 个 “居住 单元 ?可 定义 为 一 些 共同 生 活 的 人 居住 的 房间 集合 ， 也 可 能 
是 房屋 中 介 提 供 的 出 租 单元 。 在 某 些 时 候 ， 设 计 者 必须 决定 一 个 房屋 中 的 一 个 房间 是 一 个 居 
住 单 元 ， 还 是 一 个 用 于 出 租 的 共享 房间 的 一 部 分 是 一 个 居住 单元 。 通 常 ， 边 界 问题 一 一 那些 
最 初 没 有 预料 到 的 问题 一 一 并 没有 明确 刻画 ， 但 随 着 本 体 的 演化 而 逐步 有 了 好 的 定义 。 

本 体 将 不 包含 对 实际 的 房屋 或 公寓 的 描述 ， 因 为 这 些 可 住宿 的 房屋 会 随时 间 而 改变 ， 
但 是 本 体 词 汇 的 含义 不 会 改变 。 < 

本 体 的 主要 目的 是 文档 化 符号 的 含义 ， 即 符号 (计算 机 中 的 ) 与 概念 (在 人 头脑 中 的 ) 之 
间 的 映射 。 给 定 一 个 符号 ， 人 们 能 够 使 用 本 体 来 确定 该 符号 的 含义 。 当 需要 表示 一 个 概念 
时 ， 人 们 使 用 本 体 来 查找 合适 的 符号 或 者 确定 该 概念 在 本 体 中 尚 不 存在 。 第 二 个 目的 一 一 
该 目的 通过 使 用 公理 来 实现 是 允许 推理 或 发 现 一 些 值 的 组 合 是 不 一 致 的 。 建 立 本 体 的 
主要 挑战 是 组 织 要 表达 的 概念 以 允许 人 们 将 这 些 概 念 映 射 到 计算 机 中 的 符号 上 ， 且 使 得 计 
算 机 能 从 表述 的 事实 出 发 推理 出 有 用 的 新 知识 。 





亚 里 十 多 德 定义 


为 对 象 分 类 一 一 现代 本 体 论 的 基础 一 一 有 一 个 很 长 的 历史 。 亚 里 士 多 德 (公元 前 350 
年 ) 提 出 使 用 下 面 的 方式 来 给 出 类 C 的 定义 : 

"a 种 类 : C 的 超 类 。 

。 区 别 特 征 : 区 分 类 C 的 成 员 与 超 类 C 的 其 他 成 员 的 属性 。 

亚 里 士 多 德 预 见 到 了 在 定义 中 会 出 现 的 许多 问题 : 

如 果 种 类 是 不 同 的 且 相 互 并 列 ， 则 它们 的 区 别 特征 就 是 它们 在 类 别 上 的 不 同 。 以 “ 动 
物 ” 种 类 和 “知识 ”种 类 为 例 。“ 有 脚 "、“ 两 只 脚 "、“ 有 起 膀 ”、“ 水 生 ” 是 “动物 ”种 类 的 区 别 
特征 ; 知识 类 别 却 不 能 依靠 上 述 区 别 特征 来 区 分 。 知 识 的 不 同类 别 不 能 通过 “两 只 脚 ” 来 区 
分 。( 亚 里 士 多 德 ， 公 元 前 350 年 ) 

注意 ， 这 里 的 “并 列 ” 指 的 是 两 方 没有 从 属 关 系 。 

在 现代 的 本 体 中 ， 我 们 会 说 “动物 ”是 一 个 类 而 “知识 ”是 另 一 个 类 。 属 性 “两 只 和 脚 ”的 域 
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为 “动物 ”。 如 果 某 事物 是 知识 的 一 个 实例 ， 则 它 对 于 属性 “两 只 脚 ” 没 有 取 值 。 
为 根据 亚 里 士 多 德 定 义 (Aristotelian definition 建立 一 个 本 体 ， 需 要 做 下 面 的 
工作 : 
。 对 每 一 个 你 想 要 定义 的 类 ， 确定 一 个 相关 的 超 类 ,然后 选 出 那些 将 该 类 区 分 于 其 
他 子 类 的 特性 。 每 一 个 特性 提供 了 一 个 属性 及 其 取 值 。 
。 对 于 每 个 属性 ， 定 义 一 个 最 一 般 的 且 该 属性 对 其 来 说 有 意义 的 类 ， 然 后 定义 该 属 
性 的 域 为 此 类 。 将 该 属性 有 意义 的 范围 定义 为 一 个 类 (可 以 使 用 枚 举 其 值 或 使 用 亚 
里 士 多 德 定义 的 方法 来 定义 该 范围 类 )。 
这 个 过 程 可 以 很 复杂 。 例 如 ， 定 义 “奢华 家 具 ” 时 ， 你 可 能 认为 其 超 类 是 “家 具 ”， 其 显 
著 特 点 是 成 本 高 且 和 柔软 。 家 具 的 柔软 和 尝 石 的 柔软 是 不 同 的 。 你 还 可 能 希望 区 分 其 与 肌理 
的 差别 (它们 可 能 都 被 认为 是 软 的 )。 
这 种 方法 通常 不 会 给 出 一 个 层次 结构 。 一 个 对 象 可 以 属于 许多 类 。 每 一 个 类 不 是 仅 有 
一 个 最 具体 的 超 类 。 然 而 ， 这 种 结构 仍然 可 以 直接 检查 一 个 类 是 否 是 另 一 个 类 的 子 类 、 检 
查 一 个 类 的 含义 以 及 确定 在 你 的 头脑 中 与 该 类 对 应 的 概念 。 
在 极 少数 情况 下 ， 按 这 种 方法 会 构成 一 个 树 形 结构 ， 其 中 最 著名 的 是 针对 生物 界 的 林 
奈 分 类 (Linnaean taxonomy)。 这 个 分 类 是 树 形 结构 源 于 类 似 生物 的 进化 过 程 。 在 其 他 领 
域 强制 使 用 树 形 结构 一 直 不 太 成 功 。 


13.3.1 描述 逻辑 


统一 资源 标识 符 具 有 一 定 的 意义 ， 因 为 有 人 发 布 它 说 它 有 意义 ， 又 因为 人 们 根据 这 个 
含义 来 使 用 它 。 这 是 现在 的 方式 ， 但 我 们 想 获得 更 多 。 我 们 希望 获得 一 些 含义 从 而 允许 计 
算 机 能 在 其 上 做 一 些 推理 。 

现代 本 体 语言 ， 如 OWL， 建 立 在 描述 远 辑 (description logic) 的 基础 上 上。 描述 逻辑 用 
来 描述 类 、 属 性 和 个 体 。 描 述 逻 辑 的 主要 思想 是 分 离 如 下 内 容 : 

© 描述 术语 的 术语 知识 库 (terminological knowledge base)， 其 中 术语 应 保持 不 变 ， 

尽管 其 被 建 模 的 域 是 可 变 的 。 

。 描述 在 一 些 域 中 、 某 些 事件 点 时 ， 哪 些 事物 为 真 的 断言 知识 库 (assertional knowl- 

edge base) 。 
通常 ， 术 语 知识 库 在 设计 系统 时 定义 ， 它 又 定义 了 本 体 ， 且 它 只 在 词汇 含义 变化 时 才 
会 变化 ， 而 这 一 情况 很 少见 。 断 言 知识 库 通 常 包含 了 知识 ， 其 中 的 知识 是 与 特定 的 情况 紧 
密 相关 的 ， 只 在 运行 时 才 会 知道 这 些 知识 。 
通常 使 用 三 元 组 来 定义 断言 知识 库 ， 而 使 用 一 种 如 OWL 的 语言 来 定义 术语 知识 库 。 
OWL 通过 下 面 几 个 方面 来 描述 域 : 
。 个 体 (individual): 在 世界 中 被 描述 的 事物 (一 个 特定 的 房子 或 一 个 特定 的 预订 都 可 
以 是 个 体 ) 。 

。 类 (class): 是 个 体 的 集合 。 类 是 所 有 实在 的 和 潜在 的 属于 该 类 的 事物 的 集合 。 例 
Mh. “房子 ”类 是 所 有 可 以 归 为 “房子 ”的 事物 的 集合 ， 而 不 仅 是 我 们 感 兴趣 的 域 中 
存在 的 房子 。 

。 属性 (property) ， 用 来 描述 个 体 。 数 据 类 型 属性 (datatype property) 的 值 是 基本 数 

据 类 型 ， 如 整 型 或 字符 串 。 例 如 , “streetName” 可 能 是 街道 和 字符 串 之 间 的 数据 
类 型 属性 。 对 象 属性 (object property) 的 值 是 其 他 个 体 。 例 如 ，“nextTo” 可 能 是 两 
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个 房子 之 间 的 属性 ,，“onStreet” 可 能 是 房子 和 街道 之 间 的 属性 。 

OWL 有 三 个 变种 ， 其 区 别 在 于 对 类 和 属性 施加 的 限制 不 同 。 在 OWL-DL 和 OWL- 
Lite 中 ， 类 不 能 是 个 体 和 属性 ， 且 属性 也 不 能 是 个 体 。 在 OWL-Full H, 个体、 属性 和 类 
的 类 别 不 必 是 不 相交 的 。OWL-Lite 中 有 一 些 句法 限制 ， 这 种 限制 不 影响 含义 ， 但 可 使 推 
理 更 简单 。 

OWL 中 没有 唯一 名 字 假 设 ; 两 个 名 字 不 意味 着 它们 指 代 了 不 同 的 个 体 或 类 。 它 也 没 
有 知识 完备 性 假设 ; 它 不 假设 所 有 相关 的 事实 均 已 被 描述 。 

图 13-5 给 出 了 一 些 基 本 的 类 和 一 些 类 的 构造 函数 。 该 图 使 用 集合 符号 来 定义 一 个 类 
中 的 个 体 集合 。 图 13-6 给 出 了 OWL 的 基本 谓词 。 前 级 owl: 表示 来 自 OWL。 为 在 本 体 
中 使 用 这 些 属性 和 类 ， 你 可 引入 合适 的 URI 的 缩写 形式 : 


@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>. 
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>. 
@prefix owl: <http://www.w3.org/2002/07/owl#>. 





下 表 是 OWL 中 部 分 内 四 的 类 与 类 的 构造 函数 ， 其 中 GERR, Pi 表示 属性 ，1, 表示 个 体 ， name | 
#S 是 集合 S 中 元 素 的 个 数 ， 


类 包含 的 内 容 
owl: Thing 所 有 个 体 
owl: Nothing 无 个 体 ( 空 集 ) 
owl; ObjectIntersectionOf(C, , ++, Cy) 属于 CN OC. 的 个 体 
owl; ObjectUnionOf(C;, «-, C) 属于 CiU… UG 的 个 体 
owl; ObjectComplementOf(C) 不 属于 C 的 个 体 
owl: ObjectOneOf(I;, «+. I) Iis *es I 
owl; ObjectHasValue(P, D BHE P HH I HP, Biz, xP I} 
owl; ObjectAllValuesFrom(P, C) 所 有 属性 P HERAF OC 的 个 体 ， 即 (z: 2 P y+ yEC} 
owl: ObjectSomeValuesFrom(P, C) 属性 已 的 值 部 分 属于 C 的 个 体 ， 即 {zx: Jy€CH Hz Py) 


owl; ObjectMinCardinality(n, P, ©) 通过 属性 PP 至少 与 a 个 C 类 的 个 体 关联 的 个 体 z， 即 {zx: #lyl ez 
P y Hy€C}>n} 


owl; ObjectMaxCardinality(n, P, C) 通过 属性 P 至 多 与 4 个 C 类 的 个 体 关联 的 个 体 T， 即 {xz: Hiyla 
PyHy € C}<n} 











图 13-5 OWL 的 部 分 内 置 类 和 类 的 构造 函数 


在 上 述 两 个 图 中 ，zPy 是 一 个 三 元 组 。 请 注意 ， 这 意味 着 定义 谓词 的 含义 ， 而 不 是 定 
义 句法 。 谓 词 可 以 使 用 不 同 的 句法 ， 如 XML, Turtle 或 传统 的 关系 符号 。 

有 一 个 属性 构造 函数 : owl: ObjectInverseOf (P), HÆ P 的 道 属性 ， 即 其 为 属性 
P', ÑE yP lr 当 且 仅 当 zxzPy。 请 注意 ， 这 仅 适 用 于 对 象 属性 ; 数据 类 型 属性 没有 逆 ， 
因为 数据 类 型 不 能 作为 三 元 组 的 主语 。 

上 面 两 个 图 中 列 出 的 类 和 陈述 并 不 完整 。 对 于 数据 类 型 属性 ， 具 有 对 应 的 合适 的 数据 
类 型 类 。 例 如 ，owl: DataSomeValuesFrom 和 owl; EquivalentDataProperities 对 于 数据 
类 型 属性 ， 其 相应 的 对 象 符号 具有 相同 的 定义 。 在 OWL 中 , 还 有 其 他 的 构造 方法 来 定义 
属性 、 评 论 、 注 释 、 版 本 控制 ， 及 导入 其 他 本 体 。 
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OWL 有 下 面 的 具有 固定 解释 的 谓词 ， 其 中 C, ER, P 是 属性 ，1, 是 个 体 ，z 和 是 全 称 量化 变量 。 


描述 含义 
rdf; type(I, C) rec 
rdfs: subClassOf(C;, Cz) Qc, 
owl; EquivalentClasses(C;, C2) C=C, 
owl; DisjointClasses(C;, Cz) QNC.={} 
rdfs; domain(P, C) 如 果 存 在 xPy， 则 xzEC 
rdfs; range(P. C) 如 果 存 在 Py, WW yEC 
rdfs; subPropertyOf(P;, P2) zzPiy 葡 含 xP:y 
owl; EquivalentObjectProperties(P;. Ps) zP\y, MARM xPoy 
owl; DisjointObjectProperties( P}, Pz) xP; y BAA ZzPsy 
owl; InverseObjectProperties( Pı, P2) zP\y, AHAH yPzr 
owl; Samelndividual( Ii, +, In) VjVkI;=k 
owl; DifferentIndividuals(I;, ++, 1,) ViVkjFRMS IAI 
owl; FunctionalObjectProperty( P) 如 果 Py H Pyz, M y= y2 
owl; InverseFunctionalObjectProperty( P) WR zl Py H r:Py, W zi 一 zz 
owl; TransitiveObjectProperty( P) 如 果 zPy 且 >y>Pz， 则 y=z 
owl; SymmetricObjectProperty WR Py, W yPz 








图 13-6 RDF, RDF-S 和 OWL 的 部 分 内 置 谓词 


[B 13-15] Turtle 符号 中 类 构造 器 的 例子 ， 论 元 间 使 用 空间 : 

owl:MinCardinality(2:owns:building) 

表示 拥有 两 个 或 两 个 以 上 的 建筑 的 个 体 的 类 。 也 就 是 说 ， 它 是 集合 {z: Ji Ji 
xX: owns i; 且 T: Owns iz H i Fiz} 必须 在 声明 中 使 用 这 个 类 构造 器 ， 例如 ， 声明 某 个 
体 是 这 个 类 的 一 个 成 员 或 某 个 类 是 其 他 类 的 等 价 类 。 < 

【 例 13-16] 考虑 公寓 楼 的 亚 里 士 多 德 定义 。 一 座 公寓 楼 可 以 看 做 是 一 栋 居 住 建筑 ， 
它 有 多 个 单元 ， 并 且 可 以 被 租用 。( 这 是 相对 于 每 个 单元 可 以 单独 出 售 的 独立 产权 公寓 楼 ， 
或 只 有 一 个 单元 的 房屋 ) 假 设 ResidentialBuilding 类 是 Building 的 一 个 子 类 。 

先 定义 功能 对 象 属性 numberOfUnits， 域 为 ResidentialBuilding， 范 围 为 {one，two， 


moreThanTwo}。 在 Turtle 中 表示 为 : 


:DumberDtUnits rdf:type owl:FunctionalDbjectProperty; 
rdfs:domain :ResidentialBuilding; 
rdfs:range owl:OneOf(:one :two :moreThanTwo) . 


相似 的 ， 可 以 定义 功能 对 象 属性 ownership， 作 用 域 为 ResidentialBuilding， 值 为 
{rental, ownerOccupied, coop}. 

可 以 定义 一 个 公寓 大 楼 为 ResidentialBuilding， 其 属性 numberOfUnits 的 值 为 more- 
ThanTwo， 属 性 ownership 的 值 为 rental。 为 了 使 用 OWL 描述 上 述 关 系 ， 定 义 一 个 类 的 
属性 numberOfUnits， 其 值 为 moreThanTwo， 属 性 ownership 的 值 为 rental， 并 且说 Ap- 
artmentBuilding 与 这 些 类 的 交集 等 价 。Turtle 的 表示 为 : 


:APartmentBuilding 
owl:EquivalentClasses 
owl:ObjectIntersection0f ( 
owl:ObjectHasValue(:number0fUnits :moreThanTwo) 
owl:DbjectHasValue(:ownership :rental) 
:ResidentialBuilding) . 
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这 个 定义 可 以 回答 关于 公寓 楼 的 问题 ， 比 如 所 有 权 和 单元 数目 。 4 
前 面 的 示例 并 没有 真正 定义 ownership, AZAR MIM ownership 意味 着 什么 ， 而 希望 
用 户 理解 其 含义 。 如 果 要 应 用 本 体 ， 应 该 保证 所 使 用 的 属性 和 类 与 其 他 用 户 使 用 此 本 体 所 
指 的 是 相同 事物 。 
领域 本 体 (domain ontology) 是 一 个 特定 的 领域 的 本 体 。 现 存 的 本 体 的 适用 领域 都 比较 
狭小 ， 大 多 数 是 为 特定 应 用 而 编写 的 。 编 写 领 域 本体 以 便 知识 共享 的 指导 方针 如 下 : 
。 尽量 使 用 现存 的 本 体 ， 这 意味 着 你 的 知识 库 将 能 够 与 使 用 相同 本 体 的 其 他 人 的 进 
行 交 互 。 
。 如 果 现 存 的 本 体 不 完全 符合 你 的 需求 ， 尽 量 在 已 有 的 本 体 上 扩展 。 不 要 重新 构造 
本 体 ， 因 为 这 样 会 导致 那些 想 使 用 最 好 本 体 的 人 也 不 得 不 重新 选择 。 如 果 你 的 本 
体 包括 并 扩展 了 其 他 人 的 本 体 ， 其 他 人 也 会 选择 你 的 本 体 ， 因 为 它们 的 应 用 可 以 
自由 交互 。 
© 确保 本 体 和 邻近 的 本 体 是 可 以 集成 的 。 例 如 ， 关 于 度假 村 的 本 体 必须 与 食品 、 海 
浴 、 体 闲 活动 等 本 体 进 行 交 互 。 尽 量 确保 它们 对 相同 的 事物 使 用 相同 的 术语 。 
。 尽量 适应 更 高 级 别 的 本 体 ( 见 下 文 )。 这 将 使 它 更 容易 与 他 人 的 知识 相 结合 。 
。 如 果 必 须 设计 一 个 新 的 本 体 ， 应 广泛 征求 其 他 潜在 用 户 的 意见 ， 这 将 使 新 的 本 体 
最 有 用 和 最 可 能 被 广泛 采用 。 
。 遵循 命名 约定 。 使 用 成 员 单 数 作为 标识 符 命名 一 个 类 。 例 如 ， 将 类 命名 为 Resort 
而 不 是 Resorts。 不 要 因为 Resort 是 一 种 概念 而 将 Resort 类 称 为 ResortConcept。 
当 命名 类 和 属性 时 要 考虑 到 它们 如 何 使 用 。 只 看 做 Resort 的 概念 ， 而 不 是 指 一 个 
具体 Resort( 参 见 下 文 “ 类 和 概念 ”) 如 称 “ri 是 类 Resort” th “7, 是 类 Resorts” 更 好 ， 
也 比 “r 是 类 ResortConcept” 更 好 。 
。 指定 本 体 之 间 的 匹配 。 有 时 当 本 体 独 立 产生 时 必须 要 做 本 体 匹配 ， 如 果 能 够 避免 
匹配 是 最 好 的 ， 它 使 得 利用 本 体 的 知识 更 复杂 ， 因 为 有 多 种 方式 表示 同一 事物 。 
使 用 Turtle 描述 OWL， 比 使 用 XML 更 容易 阅读 。 然 而 ，OWL 是 一 种 不 方便 大 多 数 
人 阅读 的 低级 语言 。OWL 被 设计 成 一 种 方便 机 器 阅读 的 规范 。 有 很 多 OWL 的 编辑 器 ， 
例如 Protégé(http: //protege. stanford. edu/) 。 本 体 编 辑 器 应 该 支持 如 下 特征 : 
。 应 该 可 以 提供 最 合理 的 抽象 层面 上 输入 抽象 本 体 的 方式 。 
。 如 果 用 户 想 使 用 一 个 概念 ， 本 体 编 辑 器 应 容易 找到 输入 概念 对 应 的 术语 ， 或 者 确 
定 没 有 输入 概念 对 应 的 术语 。 
。 为 某 类 人 确定 术语 的 相应 含义 。 
。 本 体 编 辑 器 应 该 尽 可 能 容易 地 检查 本 体 的 正确 性 (例如 匹配 用 户 意 图 的 术语 
的 解释 ) 。 
。 本 体 编 辑 器 应 该 创建 一 个 其 他 人 能 够 使 用 的 本 体 。 这 意味 着 本 体 编 辑 器 应 该 尽 可 
能 使 用 标准 化 的 语言 。 


类 和 概念 


由 于 符号 表示 概念 ， 所 以 很 容易 将 类 称 作 概念 (concept): 从 内 部 的 表示 映射 到 符号 
表示 的 对 象 或 关系 。 
例如 ， 由 于 不 存在 独 角 兽 ， 而 只 有 独 角 兽 的 概念 ， 所 以 很 容易 将 独 角 兽 类 称 为 “ 独 角 
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兽 概 念 "， 然 而 独 角 普 与 独 角 兽 的 概念 是 不 同 的 : 一 个 是 动物 ， 一 个 是 知识 的 子 类 。 独 角 
兽 有 四 条 腿 ， 头 上 长 有 一 只 角 。 独 角 兽 概念 没有 腿 或 角 。 独 角 兽 一 般 不 会 出 现在 本 体 的 一 
个 类 中 ， 而 只 能 出 现在 独 角 兽 的 概念 中 。 没 有 独 角 兽 的 实例 ， 然 而 独 角 兽 概念 则 可 以 有 许 
多 实例 。 如 果 希 望 表 示 独 角 兽 这 种 动物 ， 应 该 使 用 术语 “ 独 角 兽 ”。 如 果 和 希望 表示 独 角 兽 概 
念 ， 应 该 使 用 “ 独 角 兽 概念 ”表示 。 我 们 不 能 说 独 角 兽 概念 有 四 条 腿 ， 因 为 知识 实例 没有 
腿 ， 只 有 动物 (和 家 具 ) 有 腿 。 

另 一 个 是 关于 地 质 构造 板块 的 例子 ， 这 种 板块 可 能 存在 了 数 百 万 年 。 而 提出 “地 质 构 造 
板块 慨 念 ”的 时 间 不 到 一 百年 。 人 脑 中 可 以 有 地 质 运 动产 生 的 板块 这 种 概念 ， 但 是 人 脑 中 不 
能 存在 真实 的 地 质 运 动产 生 的 板块 。 很 显然 “地质 构 造 板块 "和 “地 质 构 造 板 块 概念 "具有 不 同 
的 属性 ， 有 很 大 的 不 同 。 当 表示 “地 质 构造 板块 "时 不 要 使 用 “地 质 构 造 板 块 概念 ”反之 亦 然 。 

构建 本 体 时 常 犯 的 错误 是 称 对 象 为 概念 。 虽 然 你 可 以 自由 进行 命名 ， 但 是 当 且 仅 当 别人 接 
受 你 的 本 体 定 义 时 ， 知 识 共享 才 变 得 有 意义 。 


13.3.2 顶层 本 体 


例 13-16 中 定义 了 可 用 于 公寓 大 楼 的 知识 库 的 
领域 本 体 。 每 个 领域 本 体 隐 式 或 显 式 地 假定 它 能 够 
适用 于 更 高 层次 的 本 体 。 建 立 一 个 一 致 的 顶层 的 本 
体 是 有 重要 意义 的 ， 可 以 方便 其 他 本 体 的 引用 和 适 
应 ， 对 更 高 一 级 本 体 的 适应 会 使 得 本 体 间 更 容易 
交互 。 

BFO( Basic Formal Ontology， 基 本 形式 化 本 
体 ) 是 一 种 顶层 本 体 。BFO 的 分 类 见 图 13-7. 

BFO 的 最 顶层 为 实体 (entity)。OWL 称 为 层次 
事物 的 顶层 。 所 有 事物 都 可 以 称 为 实体 。 

实体 包括 持 存 体 (continuant) 和 偶然 体 (occur- 
rent)。 持 存 体 是 长 时 间 存 在 的 实体 ， 例 如 人 、 
家 、 笑 脸 、 花 的 气味 或 电子 邮件 。 偶 然 体 的 存在 时 
间 很 短暂 ， 如 生命 、 一 个 微笑 、 一 条 花 的 开放 或 发 
送 电子 邮件 这 个 动作 。 可 以 通过 判断 是 否 为 实体 的 
组 成 部 分 来 区 分 持 存 体 和 偶然 体 : 例如 手指 是 人 的 
一 部 分 ， 而 不 是 生活 的 一 部 分 ; 幼儿 期 是 人 生 的 一 
部 分 ， 而 不 是 人 的 一 部 分 。 持 存 体 参与 偶然 体 的 创 
建 ， 持 续 一 段 时 间 的 过 程 和 瞬时 发 生 的 事件 都 是 偶 - 
然 体 。 

持 存 体 可 以 是 一 个 独立 持 存 体 (independent 
continuant) 、 一 个 从 属 持 存 体 (dependent continu- 
ant) 或 一 个 空间 区 域 (spatial region), 。 独 立 持 存 体 
可 以 是 一 个 单独 存在 的 实体 ， 也 可 以 是 另 一 个 实体 图 13-7 基本 形式 化 本 体 分 类 。 图 中 
的 一 部 分 ， 例 如 ， 人 、 人 脸 、 笔 、 莱 果 的 表面 、 赤 缩 进 表 示 子 类 关系 ， 每 个 分 
道 、 国 家 、 大 气 都 是 独立 持久 体 。 从 属 持 存 体 依赖 类 是 其 上 面 最 低 缩 进 分 类 的 
于 其 他 实体 而 存在 ， 但 不 是 其 他 实体 的 一 部 分 ， 例 直接 子 类 
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如 ,一 个 微笑 、 花 的 气味 、 笑 的 能 力 只 能 依赖 于 另 一 个 对 象 而 存在 。 空 间 区 域 是 空间 中 的 
一 个 区 域 ,， 例如， 一 个 炸 圈 饼 所 占用 的 空间 ， 一 个 县 的 边界 ,或 一 个 有 最 佳 视角 的 景 
观点 。 

独立 持 存 体 可 以 进一步 划分 如 下 : 

。 场所 (site)， 是 由 其 他 持 存 体 定义 的 。 例 如 ， 一 个 甜 甜 圈 的 孔 、 一 个 城市 、 某 个 人 
的 嘴 、 一 个 房间 都 属于 场所 。 场 所 可 能 会 存在 于 另 一 个 空间 区 域 中 随 着 包含 它 的 
空间 而 移动 。 

。 对 象 聚集 (object aggregate)， 由 一 类 对 象 组 成 ， 如 一 群 羊 、 一 支 足 球 队 或 一 堆 
沙子 。 

。 对 象 (object) ， 是 一 个 自我 连接 的 实体 ， 对 象 增 加 或 损失 一 部 分 仍然 是 原 对 象 ( 例 
如 ， 失 去 了 一 些 头 发 、 一 种 信仰 ， 甚 至 一 条 腿 的 人 仍然 是 同一 个 人 )。 常 见 的 对 象 
有 杯子 、 人 、 电 子 邮件 、 相 对 论 或 系 鞋 带 的 技巧 。 

。 对 象 的 特殊 部 分 (fiat part of an object) ， 是 对 象 没 有 明确 边界 的 部 分 ， 如 一 个 城市 
的 危险 地 区 、 一 个 组 织 样本 或 一 个 海滩 僻静 的 部 分 。 

。 对 象 的 边界 (boundary of an object) ， 持 存 体 的 边界 ， 例 如 地 球 的 表面 、 细 了 胞 壁 。 

空间 区 域 可 以 是 三 维 (立体 ) 的 、 二 维 (平面 ) 的 、 一 维 ( 线 ) 的 或 零 维 ( 上 点) 的。 空间 区 域 
不 依赖 于 其 他 对 象 。 空 间 区 域 不 随 对 象 位 置 的 移动 而 移动 。 

从 属 持 存 体 是 一 个 特征 实体 或 可 实现 的 实体 。 特 征 (quality) 是 某 种 类 型 的 所 有 对 象 始 
终 拥 有 的 ， 例如， 一 包 糖 的 质量 、 一 只 手 的 形状 、 杯 子 的 脆弱 性 、 视 图 的 美 、 光 的 亮度 、 
海洋 的 气味 。 虽 然 特征 的 值 是 可 以 改变 的 ， 但 是 糖 总 是 有 质量 的 ， 手 总 是 有 形状 的 。 这 和 与 
实现 实体 (realizable entity) 形 成 对 比 ， 实 现实 体 的 值 可 以 为 空 ， 可 以 随 着 时 间 而 改变 。 一 
个 可 表示 的 实体 具有 下 列 特 征 之 一 : 

。 功能 Cfunction) ， 指 定 一 个 对 象 的 功能 。 例 如 ， 一 个 咖啡 杯 的 功能 是 盛 放 咖啡 ; 心 

脏 的 功能 是 泵 血 。 í 

。 角色 (role)， 指 定 一 个 目标 ， 不 必 是 对 象 设计 需要 的 ， 但 是 可 实现 的 。 例 如 ， KR 
是 一 种 角色， 送 咖 啡 是 一 种 角色 ， 摆 放 计 算 机 显示 器 的 桌子 是 一 种 角色 。 

。 处 置 (disposition)， 对 象 上 发 生 的 事情 ,， 例如， 如 果 上 坠落 ,杯子 摔 破 就 是 一 个 处 
置 ; 如 果 不 冷藏 ， 蔬 菜 腐烂 也 是 一 个 处 置 ; 如 果 火 柴 不 潮 ， 就 可 以 点 燃 也 是 一 个 
处 置 。 

实体 的 另外 一 个 主要 类 别 是 偶然 体 ， 下 列 实 体 都 属于 偶然 体 : 

。 时 域 范围 (temporal region) 是 一 个 时 间 域 。 时 域 范围 或 是 连续 的 (如 果 两 个 点 在 该 
区 域 ， 那 么 这 两 个 点 之 间 的 点 也 在 该 区 域 ) 或 是 分 散 的 。 连 续 的 时 域 范 围 或 是 间 
隔 的 或 是 瞬间 的 (时 间 点 );。2011 年 3 月 1 日 ， 星期二， 是 一 个 时 间 间 隔 ; 当天 
下 午 3:31 是 一 个 时 间 点 。 从 3:00 到 4:00 间 的 每 个 星期 二 ， 是 一 个 分 散 时 域 
范围 。 

。 时 空 范围 (spatio-temporal region) 是 多 维 的 。 时 空 范围 可 以 是 分 散 的 或 是 连续 的 。 
例如 ， 人 类 生活 所 占用 的 空间 属于 时 空 范围 。1812 年 加 拿 大 和 美国 之 间 的 边界 ， 
癌症 肿瘤 生长 的 区 域 都 是 时 空 范 围 。 

。 过 程 性 实体 (processual entity) 是 一 些 可 以 发 生 或 突 发 的 实体 ， 活 动 实体 有 时 间 部 
分 (也 可 能 有 空间 部 分 )， 并 依赖 于 一 个 持 存 体 。 例如， 乔 的 生命 中 有 婴儿 时 期 、 
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儿童 时 期 、 青 少年 时 期 和 成 年 后 时 期 等 部 分 ， 这 些 部 分 都 依赖 于 持 存 体 一 一 乔 。 


一 个 过 程 性 实体 包括 如 下 部 分 : 

。 过 程 (process)， 具 有 时 间 属 性 并 具有 明显 的 结束 点 。 例 如 一 条 生命 、 一 段 假期 或 
诊断 会 议 。 

。 过 程 聚合 (process aggregate)， 是 进程 的 集合 ， 如 乐队 中 人 们 的 演奏 或 一 天 之 中 一 
组 飞机 的 飞行 。 


。 过 程 的 特殊 部 分 (fiat part of process) ， 无 确切 结束 点 的 进程 ， 例 如 一 个 假日 里 最 
有 趣 的 部 分 或 一 个 操作 中 最 重要 的 部 分 。 
。 过 程 性 上 下 文 (processual context)， 是 某 些 偶然 体 的 设置 ， 例 如 休息 是 恢复 活力 
的 设置 或 手术 是 防止 感染 的 设置 。 
。 过 程 的 边界 (boundary of a process) ， 是 一 个 进程 的 瞬时 界限 ， 例 如 一 个 机 器 人 开 
始 清理 实验 室 的 时 刻 或 出 生 的 时 刻 。 
上 述 分 类 有 助 于 其 他 本 体 的 建立 。 它 明确 领域 本 体 如 何 与 上 层 本 体 结 合 ， 保 证 本 体 方 
便 的 整合 。 集 成 本 体 是 必要 的 ， 它 允许 应 用 来 引用 多 个 知识 库 ， 每 一 种 知识 库 都 可 能 使 用 
不 同 的 本 体 。 
设计 顶层 本 体 很 困难 。 顶 层 本 体 不 能 满足 所 有 用 户 的 需求 ， 总 会 出 现 有 问题 的 情形 。 
尤其 ， 边 界 情况 往往 不 好 指定 。 但 使 用 一 个 标准 的 顶层 本 体 有 助 于 本 体 的 连接 。 


13.4 查询 用 户 和 其 他 知识 来 源 


在 5. 3. 2 节 的 讨论 中 得 出 用 户 不 是 知识 库 领 域 的 专家 的 结论 ; 然而 他 们 往往 非常 了 解 
特定 情况 下 的 细节 ， 因 此 可 以 提供 一 个 知识 源 。 通 常情 况 下 ， 用 户 不 知道 相关 的 知识 和 需 
要 使 用 的 词汇 ， 因 此 不 可 能 告诉 系统 他 们 知道 的 知识 。 知 识 获取 的 一 方面 问题 是 ， 如 何 最 
有 效 地 从 用 户 那里 获取 知识 。 

最 简单 的 问题 形式 是 5. 3.2 节 中 所 表示 的 “yes-or-no” 形 式 。 通 过 引入 变量 和 函数 符 
号 ， 可 以 询问 用 户 更 复杂 的 问题 。 

【 例 13-171 考虑 例 12-11 中 的 知识 库 ， 但 没有 “up” 或 “down” 的 规则 。 假 设 用 户 可 以 
观察 到 开关 的 位 置 ， 为 了 使 用 户 能 够 被 询问 到 开关 的 位 置 的 问题 ， 问 题 wp(S) 和 dorwn(S) 
是 能 够 被 询问 的 。 下 面 是 对 于 询问 “?Lizi(L)”( 即 用 户 被 询问 的 目标 ) 的 一 个 自 顶 向 下 证 明 过 
程 的 一 段 可 能 的 对 话 。 用 户 的 回复 用 黑体 标注 : 

Is up(sz) true? yes. 

Is up(s,) true? no. 

Is down(sz) true? no. 

Is up(s;) true? yes. 

SR: L=ls 。 

在 本 例 中 ，“up” 和 “down” 之 间 没 有 明确 的 相关 性 ， 所 以 系统 对 这 两 种 情况 都 会 
询问 。 < 

上 述 例 子 中 的 本 体 很 简单 ， 我 们 假设 用 户 能 够 理解 这 个 问题 。 一 般 情况 下 ， 询 问 用 户 
并 不 是 那么 简单 ， 问 题 必 须 以 用 户 能 够 理解 的 形式 设 定 ， 用 户 必须 理解 问题 的 含义 和 预期 
的 回答 。 
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13.4.1 函数 化 关系 


当 一 个 关系 被 函数 化 后 ， 即 使 用 户 没 有 直接 给 出 答案 ， 系 统 也 可 以 知道 询问 目标 的 答 
案 。 当 对 于 每 个 和， 有 唯一 的 YY 使 得 >(X，Y) 为 真 时 ， 关 系 >(X，Y) 是 函数 化 的 。 如 果 
对 于 特定 的 X， 系 统 已 经 找到 一 个 Y 使 得 ~>(X，Y) 为 真 ， 则 不 应 该 再 询问 更 多 关于 Y 的 
问题 。 

【 例 13-18) 在 前 面 例子 中 ， 当 用 户 已 经 告诉 系统 wp(ss) 为 真 时 ， 问 题 “Is down(s,) 
true?” 就 是 多 余 的 。 最 好 定义 一 个 关系 postSw，pos)， 其 中 位 置 是 开关 的 函数 。 告 知 系统 
pos 是 函数 化 的 ; 每 个 开关 只 有 一 个 位 置 。 一 旦 系统 确定 了 一 个 开关 的 位 置 ， 则 不 会 再 询 
问 关 于 此 开关 位 置 的 问题 。 < 

询问 一 个 函数 化 关系 的 “yes-or-no” 问 题 通常 是 非常 低 效 的 。 不 要 枚 举 每 个 开关 的 位 
置 ， 并 且 问 是 否 是 那个 开关 ， 最 好 只 问 一 次 关于 开关 位 置 的 问题 ， 而 不 是 重复 提问 。 如 果 
系统 询问 一 个 人 的 年 龄 ， 直接 问 此 人 的 年 龄 要 好 于 列举 所 有 的 年 龄 并 逐个 询问 “true-or- 
false”, 

这 种 普遍 化 的 问题 可 能 不 适合 于 非 函 数 化 的 关系 。 例 如 ， 如 果 开 关 可 以 同时 安装 在 许 
多 位 置 上 ， 那 么 最 好 对 每 个 位 置 都 做 询问 。 

一 个 复杂 的 问题 是 关于 答案 的 词汇 。 用 户 不 清楚 知识 库 工 程 师 期 望 得 到 的 是 什么 词 
汇 。 有 两 个 方案 解决 这 个 问题 : 

。 系统 设计 师 提供 一 个 菜单 条 目 ， 用 户 从 中 选择 最 适合 的 。 这 种 方法 在 条 目 数量 少 

或 条 目 可 以 以 较 小 的 层次 结构 排列 时 才 有 效 。 

。 系统 设计 师 提 供 一 个 较 大 的 能 够 预 估 所 有 可 能 的 答案 的 词典 。 当 用 户 给 出 一 个 答 
案 ， 答 案 就 被 映射 为 系统 所 期 望 的 内 部 形式 。 通 常 假设 用 户 使 用 的 词汇 都 是 普通 
语言 或 缩写 形式 ， 因 此 用 户 不 希望 系统 理解 像 “giganormous”( 即 "very big”) 这 样 
的 词汇 。 

上 述 工作 属于 经 验 问 题 。 有 关 如 何 设计 计算 机 与 人 交互 的 问题 属于 人 机 交互 (human 

computer interaction，HCI) 领 域 的 问题 。 


13. 4.2 更 普遍 的 问题 


yes-or-no 问题 和 函数 化 关系 不 能 涵盖 查询 的 所 有 情况 。 可 以 在 询问 用 户 的 查询 中 加 
入 自由 变量 得 到 通用 的 查询 形式 。 

【 例 13-19] 对 于 子 目标 pla， ，f (2Z))， 可 以 询问 用 户 类 似 这 样 的 问题 : 

X AZ 到 何 值 时 ,pl(a,X,f(2)) 为 真 ? 


当然 应 该 提交 用 户 能 够 理解 的 问题 形式 。 
然后 期 望 用 户 对 X AZ 给 出 约束 ， 使 得 子 目 标 为 真 ， 或 者 回答 no， 表 示 不 存在 这 样 
的 X 和 2 实例。 这 符合 系统 提问 的 查询 协议 。 


这 里 会 出 现 一 些 如 下 的 问题 ， 

。 对 于 系统 提示 的 新 实例 ， 用 户 应 该 给 出 所 有 值 为 真 的 实例 ， 还 是 一 次 给 出 一 个 实 
例 ? 认可 一 个 基于 知识 的 系统 的 主要 标准 是 它 的 合理 性 。 因 此 以 自然 的 、 合 乎 逻 
辑 的 方式 来 提问 是 非常 重要 的 。 出 于 这 个 原因 ， 当 需要 另 一 个 实例 时 最 好 给 出 提 
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示 。 通 过 这 种 方式 ， 系 统 能 够 在 考虑 下 一 个 个 体 之 前 对 个 体 的 深度 进行 探测 。 这 
种 方式 的 效果 取决 于 知识 库 的 结构 。 
。 何 时 不 问 问题 或 不 再 对 一 个 问题 提问 ? 例如 ， 对 于 问题 *X 取 何 值 可 使 p(X) 为 
真 ?” 如 果 用 户 已 经 给 出 回答 的 含义 为 X= 了 (2Z)( 例 如,“ 对 于 2Z 的 所 有 值 ， 
p(f(2)) 为 真 ")。 在 这 种 情况 下 ,不 应 该 再 问 用 户 p(f (5)) 是否 为 真 或 
pLf(h(W))) 是 否 为 真 ， 而 应 该 问 关 于 LAOR p(X) 是 否 为 真 ( 即 问 一 个 不 同 的 实 
例 )。 如 果 用 户 随 后 对 问题 “X 取 何 值 可 使 p(X) 为 真 ?” 的 回答 为 ao。 意思 是 对 这 
个 问题 没有 答案 ， 而 不 是 说 对 于 所 有 的 X，z(CX) 都 为 假 (因为 系统 已 经 被 告知 
X 一 6) 是 一 个 为 真 的 实例 ) 。 
一 般 的 规则 是 ， 不 应 该 对 已 经 做 出 正面 回答 的 问题 或 对 用 户 已 经 回答 no 的 问题 再 做 
更 具体 的 询问 。 
。 在 证 明 过 程 中 ， 系 统 遇 到 问题 是 应 该 立即 询问 ， 还 是 应 该 推迟 询问 直到 有 更 多 变 
量 的 值 被 确定 呢 ? 在 查询 中 ， 可 能 会 存在 一 些 目标 ， 无 论 用 户 给 出 任何 答案 ， 都 
将 无 法 达到 ， 此 时 最 好 直接 寻找 实现 这 些 目标 的 答案 而 不 是 询问 用 户 。 在 一 个 查 
询 中 也 存在 随 着 自由 变量 的 求解 ， 最 终 的 答案 将 随后 被 确定 的 情况 。 相 比 于 让 用 
户 列举 各 种 可 能 性 而 偶然 碰 到 答案 ， 可 能 等 待 自 由 变量 被 求解 后 的 方式 会 更 好 些 。 
考虑 查询 “? p(X) 人 gl(X)”"， 其 中 p(X) 是 可 询问 的 。 如 果 只 有 一 个 g 的 实例 ， 如 gq(k) 
为 真 ， 那么 最 好 拖延 询问 p(X) 直 到 X 值 确定 为 &。 然 后 系统 直接 询问 p(k)， 而 不 是 询问 
用 户 枚 举 所 有 的 p， 直 到 问 到 p(k) 为 真 。 然 而 ， 如 果 q(X) 的 实例 是 一 个 很 大 的 数据 库 ， 
而 只 有 很 少 的 XX 值 使 得 p(X) 为 真 ， 那么 最 好 询问 p(X) 的 实例 ， 然 后 利用 p(X) 去 检查 数 
据 库 ， 而 不 是 对 数据 库 的 每 一 个 元 素 都 提出 yes-or-no 的 问题 。 直 接 询问 还 是 延迟 询问 ， 
哪 一 种 方式 更 好 取决 于 对 于 使 得 p(X) 为 真 的 个 体 数 目的 人 和 估计， 取决 于 对 于 使 得 qa(X) 为 真 
的 个 体 数目 的 估计 和 询问 用 户 的 相关 成 本 。 
上 述 实际 的 问题 对 于 一 个 KB 系统 设计 一 个 友好 的 用 户 界面 是 非常 重要 的 。 


13.5 实现 基于 知识 的 系统 


对 于 一 个 Agent 来 说 ， 能 够 表示 自己 的 推理 是 非常 重要 的 。Agent 表示 自己 的 推理 被 
称 为 反射 (reflection) 。 明 确 地 表示 Agent 的 推理 使 Agent 能 够 更 加 灵活 地 推理 ， 以 便于 设 
计 师 可 以 为 应 用 设计 最 合适 的 语言 。 

本 节 着 重 介绍 反射 的 用 途 之 一 ， 即 实现 为 特定 应 用 所 需 特 征 而 构建 的 新 语言 而 提供 的 
轻 量 级 工具 。 通 过 这 种 轻 量 级 工具 很 容易 实现 新 的 语言 和 其 他 工具 ， 并 且 保 证 语言 和 工具 
可 以 随 着 应 用 的 演变 而 演变 。 

语言 的 元 解释 器 (meta-interpreter) 是 用 同一 语言 书写 的 语言 解释 器 。 这 种 解释 器 很 有 
用 ,在 原型 上 的 修改 方便 具有 有 用 特征 的 新 语言 的 快速 构建 。 一 旦 一 种 语言 证 明了 它 的 效 
用 ， 这 种 语言 的 编译 器 就 会 被 开发 出 来 以 提高 效率 。 

在 另 一 种 语言 内 部 实现 一 种 新 语言 ， 实 现 的 语言 被 称 为 基 语 言 (base language)， 或 者 
称 为 对 象 语言 (object language) ， 已 经 被 实现 的 语言 称 为 元 语言 (metalanguage)。 在 基 语 
言 中 的 表达 式 属于 基本 级 (base level) ， 在 元 语言 中 的 表达 式 属 于 元 级 (meta-level) 。 本 节 
首先 为 12 章 提 出 的 “限定 子 名 语言 ?定义 一 个 元 解释 器 ， 然 后 说 明 如 何 修改 或 扩展 基 语 言 ， 
以 及 如 何 通过 修改 元 解释 器 得 到 解释 和 调试 工具 。 
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13.5.1 基 语言 和 元 语言 


我 们 需要 对 基本 级 表达 式 做 出 表示 ， 使 得 解释 器 可 以 通过 操纵 基本 级 表达 式 来 产生 答 
案 。 起 初 ， 基 语言 也 是 定义 子 句 的 语言 。 在 前 文中 已 经 表述 过 ， 限 定子 名 语言 是 由 术语 、 
原子 、 主 体 和 子 句 构成 。 

元 语言 是 指 基 语 言 的 语法 元 素 。 因 此 ， 元 级 符号 代表 基本 级 术语 、 原 子 、 主 体 和 子 
句 。 基 本 级 术语 表示 域 中 被 模拟 的 对 象 ， 并 且 基 本 级 的 谓词 表示 域 中 的 关系 。 

一 个 元 解释 器 在 为 一 个 全 新 的 语言 编写 解释 器 方面 的 优点 之 一 是 其 对 象 级 能 够 使 用 元 
级 结构 。 当 编写 一 个 逻辑 编程 元 解释 器 时 ， 需 要 对 如 何 表示 变量 做 出 选择 。 在 非 基 表示 
(non-ground representation) 中 ， 基 本 级 术语 的 表示 与 元 语言 中 的 相同 ， 所 以 ， 特 别 的 ， 
基本 级 变量 可 表示 为 元 级 变量 。 这 是 相对 于 基础 表示 (ground representation) 而 言 的 ， 在 
基础 表示 中 ， 基 语言 变量 表示 为 元 语言 中 的 常量 。 非 基 表 示意 味 着 ， 元 级 统一 被 有 效 地 用 
于 基本 级 术语 的 统一 。 基 础 表示 可 以 实现 更 复杂 的 统一 的 模型 。 

【 例 13-20] 在 非 基 表示 中 ,基本 级 术语 foo(X，f(b)，X) 将 被 表示 为 元 级 术 
语 foo(X，Jf(b)，X)。 

在 基础 表示 中 ， 基 本 级 术语 foo(X，f(b)，X) 将 被 表示 为 foo (var(z)，f(b)， 
var(x)), JEP var 是 元 级 函数 符号 ， 代 表 给 定名 字 的 变量 作为 其 参数 。 < 

我 们 将 为 限定 子 句 生成 非 基 表 示 。 元 语言 必须 能 够 表示 所 有 的 基本 级 结构 。 

基本 级 变量 、 常 量 和 函数 符号 都 可 以 表示 为 相应 的 元 级 变量 、 常 量 和 函数 符号 。 因 
此 ， 所 有 基本 级 中 的 术语 可 表示 为 元 级 中 相同 的 术语 。 基 本 级 谓词 符号 p 由 相应 的 元 级 函 
数 符号 pp 表示。 所以， 基本 级 原子 p(t1 ，…，t) 被 表示 为 元 级 术语 PCs vrs ted 

基本 级 主体 也 表示 为 元 级 术语 。 如 果 e 和 e 是 元 级 术语 ， 代 表 基 本 级 原子 或 主体 ， 
令 元 级 术语 oandle, eR e Me 的 基本 级 合 取 。 因 此 ，oand 是 一 个 元 函数 符号 ， 表 
示 基 本 级 合 取 。 

基本 级 子 句 可 以 表示 为 元 级 原子 。 基 本 级 规则 “h if 5” 表示 为 元 级 原子 clauselh, b'), 
其 中 ，b' 表 示 5 的 主体 。 基 本 级 原子 子 句 a 被 表示 为 元 级 原子 clause (a，true)， 其 中 元 级 
常量 true 表示 基本 级 空 主体 。 

[B] 13-21】 例 12-11 的 基本 级 子 名 

connected_to(l,, wy) 

connected _toC wo ， w,)<upls,) 

lit(L)<-light(L) 人 oR( 工 ) A live(L) 

可 以 表示 为 元 级 事实 : 
clause(connected_to(l, ,w) ,true) 


clause(connected_toCw sw) ,upCs2)) 

clause(lit(L) ,oand dight(L) ,oand(ok(L) ,live(L)))) < 

为 了 使 基本 级 更 具 可 读 性 ， 使 用 中 缀 函数 符号 "把 "代替 oand, W candle, e) WAH 
el&es 。 连 接 符号 “了 &” 是 元 语言 的 中 级 函 数 符号 ， 是 一 种 基 语 言 的 原子 之 间 的 算 子 。 这 只 
是 oand 表示 的 语法 变化 。 这 种 中 级 运算 符 的 使 用 使 得 基本 级 公式 更 容易 阅读 。 

使 用 h<=b (RAF clause (h，65)， 其 中 二 是 中 级 元 级 谓词 符号 。 因 此 ， 苦 本 级 子 句 “h< 
wa Nv 人 Aa,” 表 示 为 元 级 原子 : 


ha, Be Boan 
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如 果 相 应 的 基本 级 子 句 是 基本 级 知识 库 的 一 部 分 ， 那么 上 述 的 元 级 原子 为 真 。 在 元 级 
中 ， 这 个 原子 能 够 像 任 何其 他 原子 一 样 使 用 。 
581] 图 13-8 总 结 了 如 何 使 用 元 语言 表示 基 语 言 。 








名 
名 


图 13-8 基 语 言 的 非 基 表 示 
【 例 13-22] 采用 中 缀 符号 表示 法 将 例 13-21 中 的 基本 级 子 句 表示 为 元 级 事实 : 


connected_to(l, ,tw ) true 


子 


connected_to(wy sw; )=up(s: ) 

lit(L) =light(L) &ok(L) &.live(L) 

与 例 13-21 中 的 表示 方法 相 比较 ， 上 述 表 示 方 法 的 可 读 性 更 好 ， 但 对 计算 机 而 言 ， 它 
们 本 质 上 是 相同 的 。 < 

TOR BGS“ e TCR A aS“ RH" AEE MAY TCR ES. BY DA FE fa th 
符号 。 中 组 符号 仅仅 是 为 了 增强 易 读 性 。 


13. 5.2 普通 的 元 解释 器 


本 节 介 绍 一 个 非常 简单 的 利用 限定 子 句 语言 编写 的 普通 的 元 解释 器 (vanilla meta-inter- 
preter)， 用 于 解释 限定 子 句 语言 。 后 续 的 章节 将 增强 这 种 元 解释 器 以 提供 额外 的 语言 构建 和 
知识 工程 工具 。 在 考虑 后 面 提 及 的 更 复杂 的 元 解释 器 之 前 ， 首 先 来 理解 一 个 简单 的 例子 。 

图 13-9 定义 了 限定 子 句 语言 的 元 解释 器 。 这 是 一 种 公理 化 的 关系 proves 当 基 本 级 主 
体 G 是 基本 级 子 句 的 一 个 逻辑 结果 时 ，prove(G) 为 真 。 


% 当 基 级 主体 G 是 使 用 谓词 符号 “<=" 定 义 的 基 级 子 句 的 逻辑 结果 ，prove(G) 为 真 
prove(true). 
prove ((A&B))<- 
prove(A) 人 


prove(B). 
prow( H) 

(H=B) A 

prove(B). 





图 13-9 普通 的 限定 子 句 元 解释 器 


正如 公理 化 任何 其 他 关系 一 样 ， 子 句 在 预期 的 解释 中 取 真 值 ， 确 保 子 句 覆 盖 了 所 有 的 
情况 ， 并 且 通 过 递归 做 了 一 些 简化 。 这 种 元 解释 器 本 质 上 涵盖 了 在 子 句 或 查询 的 主体 中 的 
每 种 可 能 的 情况 ， 并 且 给 出 如 何 解 决 每 种 情况 的 方案 。 主 体 可 以 是 空 的 ， 或 是 一 种 合 取 ， 
或 是 一 个 原子 。 很 容易 证 明 空 的 基本 级 主体 为 真 。 可 以 通过 证 明 A 和 B 为 真 来 证 明基 本 
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级 合 取 A&B 为 真 。 为 了 证 明 原 子 五 为 真 ， 首 先 找 到 一 个 H 的 基本 级 子 句 作为 头 部 ， 并 

且 证 明 该 子 句 的 主体 为 真 。 582 
CH) 13-23) 考虑 图 13-10 中 依据 例 12-11 改 

编 的 基本 级 知识 库 的 元 级 表示 。 该 知识 库 由 元 级 “| CLO 


| 








ONES i light(L) & 
RAR, AAR Mia AS. B=”. 下面 介 okCL) & 
绍 由 普通 的 元 解释 器 和 < 子 句 组 成 的 知识 库 是 如 tive(L). 
live(W)<= 
何 自 项 向 下 工作 的 。 、 rae connected_to(W, W,)& 
使 用 下 面 的 查询 询问 基本 级 目标 Live(ws): live(W,). 
? provellivelws; )) livel outside) =true. 
= š light(1,)<true. 
prove 的 第 三 个 子 句 是 唯一 符合 此 查询 的 子 ae 
‘iJ. 接着 寻找 形式 为 live(w;)<= B 的 子 句 ， 得 到 down( s,)<=true. 
live(W)<=connected_to(W, W,)8-live(W, ) upr y Te 
up(s;) true. 
W 与 ws 一 至 » B 与 connected _to Cws, Wi) connected_to(l,, wy))<true. 
& live(W, ) 一 致 9 接 下 来 尝试 证 明 connected_to(wy, w) &up(s:)& ok(s,). 
prove((connected_to(w;+. W,) &live(W,))) Saar ati ” a EAE T “ a ). 
i ae 、 connected_to(w,, w;)=up(s, ok(s,). 
prove 的 第 二 子 句 可 以 证 明 上 式 : 然后 证 明 connected _tolw:, w;)=down(s,)& ok(s,). 
prove(connected_to(Cws; ,W, )) connected_to(l:, w) true. 
使 用 prove 的 第 三 个 子 句 可 以 证 明 上 式 。 寻找 connected_to(u,, w;)<up(s,)& ok(s;). 
connected_to(p,, ws) true. 
首部 与 下 式 首 部 一 致 的 子 句 connected_to(w;, ws)<ok(ch,). 
connected_to(w; ,;W,)<=B connected_to(p,, t,)<=true. 


找到 connected _to(w;, outside) € true, 4 conngcted.toCwis ws) <=0k(Ccb,). 
connected_to(w;, outside)true. 


W, 5 outside RE, W prove 的 第 一 个 子 句 可 以 | kX true. 
推导 出 proveltrue), 

合 取 的 后 半 部 分 proveClive(W1))， 其 中 Wi 一 。 ” 图 1310 室内 布线 的 基本 级 知识 库 
outside， 可 归结 为 证 明 prove(true). < 


13.5.3 扩展 基 语 言 


可 以 通过 修改 元 解释 器 来 改变 基 语 言 。 添 加 
子 句 可 以 增加 语言 的 证 明 能 力 。 向 元 解释 器 的 规则 中 增加 条 件 可 以 限制 语言 的 证 明 能 力 。 
在 所 有 的 实用 系统 中 ， 不 是 每 一 个 谓词 都 可 以 用 子 句 定义 的 。 例 如 ， 在 当前 可 以 做 快 
速算 术 运 算 的 机 器 上 实现 计算 公理 化 是 不 切实 际 的 。 最 好 的 方法 是 直接 调用 底层 系统 ， 而 
不 是 公理 化 谓词 。 假 设 谓词 cal1(G) 可 以 直接 求 G 的 值 ，call (p(X)) 与 p(X) 是 一 致 的 。 |583 
由 于 限定 子 名 语言 不 允许 使 用 自由 变量 作为 原子 ， 所 以 需要 加 上 谓词 calls Sod 
内 置 的 程序 可 以 通过 定义 元 级 关系 built_in(X) 在 基本 级 上 被 计算 ,如 果 X 的 所 有 实 
例 被 直接 计算 ， WA built in OHA; HP X 必须 是 表示 基本 级 原子 的 元 级 变量 。 不 要 
假设 buili_in 可 以 作为 内 置 关系 被 提供 。built_in 可 以 像 任 何其 他 关系 一 样 被 公理 化 。 
基 语 言 被 扩展 后 可 以 用 于 在 子 句 的 主体 中 的 析 取 (或 者 包含 ) 。 
当 A 在 解释 了 中 为 真 , 或 当 B 在 解释 IT 中 为 真 (或 者 A 和 B 都 在 解释 工 中 为 真 ) 时 ， 
析 取 (disjunction)AVB 为 真 。 
如 果 允 许 在 基本 级 的 主体 中 进行 析 取 ， 则 不 需要 在 元 语言 中 析 取 。 
(Gi 13-24) 基本 级 规则 的 一 个 例子 


can_see<=eyes_open®. (lit(l,) V litCl,)) 
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表示 如 果 eye_open 为 真 并 且 lie MH lit, ) 为 真 (或 两 者 都 为 真 )， 那 么 can_see HEL < 

图 13-11 说 明 元 解释 器 允许 对 内 置 程序 直接 求 值 ， 并 且 人 允许 对 规则 主体 析 取 。 实 现 上 
述 功 能 需要 一 个 内 置 的 断言 库 ， 并 且 假 设 cal1(G) 是 可 以 在 元 级 上 证 明 G 的 一 种 方式 。 

对 于 这 种 解释 器 ， 元 级 和 基本 级 是 不 同 的 语言 。 基 本 级 允许 在 主体 内 析 取 。 元 级 不 需 
要 为 基 语 言 提供 析 取 功能 。 元 级 需要 一 种 方式 来 解释 celL(G) ， 而 基本 级 则 不 需要 。 然 而 ， 
可 以 在 基 语 言 中 添加 下 面 的 元 级 子 句 来 解释 命令 call(G) : 

prove(call(G) )— 

prove(G) 





ARER Et G 是 基 级 知识 库 的 还 辑 结果 ， 则 prove(G) 为 真 
prove(true). 
prow ((A&B))+— 
prave(A) A 
prove(B). 
prove (CAV B))<— 
prove(A). 
prove (CAV B))=— 
prove(B). 
prow (H)< 
built in( H) A 
call(H). 
prove (H)=+- 
(H=B) A 
prove(B). 






















图 13-11 使 用 内 置 调用 cold 和 析 取 的 元 解释 器 示例 
13.5.4 深度 有 限 搜索 


上 一 节 展 示 了 如 何 添加 额外 的 元 级 子 句 来 扩展 基 语 言 。 本 节 说 明 如 何 向 元 级 子 句 添加 
额外 的 条 件 来 缩减 基 语 言 的 范围 。 

有 用 的 元 解释 器 是 一 种 可 以 实现 深度 有 限 搜 索 的 解释 器 。 它 可 用 于 查找 简短 的 证 明 或 者 可 
以 作为 迁 代 深度 搜索 的 一 部 分 ， 在 每 个 阶段 执行 增加 限定 的 重复 的 深度 限定 、 深 度 优 先 搜索 。 

图 13-12 给 出 了 一 个 公理 化 的 关系 bprove(G，D) ， 如 果 G 可 以 利用 深度 小 于 或 等 于 
非 负 整数 D 的 证 明 树 得 到 证 明 ， 那 么 关系 bprove(G，DD) 为 真 。 此 图 使 用 Prolog 的 中 级 谓 
词 符号 is， 其 中 如 果 V 是 表达 式 E 的 数值 ， 则 “V is E” 为 真 ， 在 这 个 表达 式 中 “一 ”是 中 级 
减法 函数 符号 。 因 此 ， 如 果 Di 比 数值 D 小 1， 则 “D, is D 一 1” 为 真 。 


% 如 果 G 可 以 被 一 棵 深度 小 于 或 等 于 数值 D 的 证 明 树 证 明 ， 那么 bprove(G, DAH 
bprove(true, D). 
bprove((A & B), Dy 
bprove(A, D) A 
bprove(B, D). 


bprove(H, D)<— 
D>0A 
D, is D-1A 
(H=B) A 
bprove(B, D,). 





图 13-12 元 解释 器 实现 深度 有 限 搜索 
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如 果 在 查询 中 DD 是 固定 值 ， 元 解释 器 就 不 会 陷 人 死 循 环 , 但 是 此 元 解释 器 不 能 证 明 其 
深度 大 于 D。 因 此 将 D 设 为 固定 值 的 这 个 元 解释 器 是 不 完整 的 。 然 而 ,如果 D 足够 大 ， 
对 于 prove 元 解释 器 的 每 一 个 证 明 都 可 以 由 这 个 元 解释 器 找到 。 迁 代 深 度 搜索 的 实质 是 利 
用 执行 重复 的 深度 有 限 搜索 ， 每 次 增加 深度 的 限定 来 实现 的 。 有 时 深度 有 限 元 解释 器 可 以 
找到 prove 不 能 找到 的 证 明 。 在 prove 元 解释 器 探求 到 所 有 证 明之 前 就 陷入 了 无 穷 循 环 时 
会 发 生 这 种 情况 。 

这 不 是 构建 有 界 元 解释 器 唯一 的 方式 。 深 度 有 限 元 解释 器 还 可 以 通过 将 其 他 指标 替代 
深度 。 例 如 ， 使 用 树 的 节点 数 替 代 树 的 最 大 深度 。 还 可 以 通过 改变 第 二 规则 使 合 取 产 生成 
本 (参见 习题 13. 7) 。 


13. 5.5 元 解释 器 构建 证 明 树 


为 了 实现 5. 3. 3 节 中 的 how 命令 ,解释 器 通过 证 明 树 的 表示 方式 来 导出 答案 。 元 解释 
器 可 以 被 扩展 来 建立 一 个 证 明 树 。 图 13-13 给 出 一 个 实现 内 置 谓词 并 建立 证 明 树 的 元 解释 
器 。 通 过 遍历 这 棵 证 明 树 可 以 实现 “how” 询 问 。 





% 当 基 级 主体 G 是 基 级 知识 库 的 逻辑 结果 ， 并 且 了 表示 相应 证 明 过 程 的 证 明 树 ， 则 hprove(G，T) 为 真 
hprove(true, true). 
hprove((A & B), (L & R))- 
hprove(A, L) A 
Aprove(B, R). 
hprove( H, if(H, built_in))+ 
built_in(H) A 
cali( H). 


hprove(H, if(H, T))<— 
CHEB) A 
hprove(B, T). 





图 13-13 元 解释 器 建立 一 个 证 明 树 的 过 程 


【 例 13-25】 考虑 例 12-11 中 接线 域 的 基本 级 子 句 和 基本 级 查询 ?Lii(L)”。 元 查询 “? 
hprove(lit(L)，T)” 的 答案 是 LL 二 1!;， 其 证 明 树 工 如 下 : 
T =if Witt), 
if Clight(l,).true) &. 
if (ok(ls) ,true) &. 
if (livw(l,), 
if (connected_to(l, ,wy) true) & 
if CliveCu,), 
if (connected_to(u, sw), 
if (up(s;).true)) & 
if CliveCwys), 
if (connected_to(uy,ws), 
if (ok(ch,).true)) & 
if Clive(ws), 
if (connected_to(w; ,outside) ,true) & 
if (liveCoutside) ,true)))))). 
尽管 这 棵 数 如 果 被 适当 地 格式 化 后 能 够 被 理解 ;但 仍然 对 用 户 有 技术 上 的 要 求 ， 才 能 
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理解 这 棵 数 。5. 3. 3 节 中 的 how” 询问 遍 历 了 这 棵 树 。 用 户 只 需要 看 到 子 句 ， 而 不 需要 看 
这 棵 树 。 参 见习 题 13. 12。 á 


13.5.6 可 询问 用 户 的 元 解释 器 


13-14 给 出 一 个 可 询问 用 户 的 解释 器 的 伪 人 代码。 这 个 解释 器 假设 有 外 部 数据 库 记 录 
查询 的 答案 ， 当 查询 被 回答 时 更 新 数据 库 。 元 级 形式 answered(H, Ans) RIN. WR 
用 户 询问 互 ， 用 户 给 出 的 回答 Ans 或 为 yes RA no, A asked(H, Ans)\#6HH. unan- 
swered(H, Ans) RIRE X FIER Ans, answered(H, Ans) ted FE PRCA. ERK 
第 四 子 句 的 字面 意思 是 当 答案 为 yes 时 ， 该 子 句 生 效 ， 但 无 论 用 户 回 答 yes 还 是 no 答案 都 
会 被 记录 下 来 。 

图 13-15 给 出 了 可 以 用 来 查找 why 问题 的 原始 规则 列表 的 元 解释 器 。wprove 的 第 二 
个 参数 是 在 证 明 树 的 当前 部 分 中 每 个 规则 的 头 部 形 如 (互生 B) 的 子 名 列表。 这 个 元 解释 器 
可 以 与 图 13-14 中 做 询问 的 元 解释 器 相 结合 。 当 用 户 使 用 why 回答 问题 时 ， 上 述 子 名 列表 
可 提供 产生 当前 子 目 标的 规则 集 。5. 3. 3 节 中 的 why 查询 可 以 通过 遍历 子 句 列表 和 向 上 凯 


[588] 历 证 明 树 ， 一 次 一 步 来 实现 。 


% SER EK G 是 基 级 知识 库 的 逻辑 结果 ， 并 且 用 户 已 经 回答 yes/no 查询 ， 则 aprove(G) 为 真 
aprove(true), 
aprove((A & B))+— 
aprove(A) A 
aprove(B). 
aprove ( H)< 
askable( H) 人 
answered (H, yes). 
a prove ( H)<— 
askable( H) A 
unanswered ( H) N 
ask(H, Ans) A 
record (answered (H, Ans)) A 
Ans= yes. 
aprove(H)< 
(H=B) A 
aprove( B). 








13-14 可 询问 用 户 的 元 解释 器 的 伪 代 码 


%% 如 果 基 级 主体 G 是 基 级 知识 库 的 逻辑 结果 ,并且 A 是 G 在 原始 查询 证 明 树 中 的 初始 规则 列表 ， 
则 wprove(G，A) 为 真 
wprove(true, Anc). 
wprove((A & B), Anc)< 
wprove(A, Anc) A 


wprove(B, Anc). 
wprove(H, Anc)+- 

(H&B) A 

wprove(B, [(H=B) | Anc]). 





13-15 元 解释 器 收集 why 问题 的 原始 规则 
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13.5.7 推迟 目标 


推迟 (delay) 目 标 是 元 解释 器 的 最 有 用 的 功能 之 一 。 元 解释 器 将 某 些 目标 收集 到 一 个 
列表 中 ， 而 不 是 去 证 明 它 们 。 在 证 明 的 最 后 阶段 ， 系 统 导 出 结论 ， 如 果 推 迟 的 目标 都 取 真 
值 ， 则 结果 为 真 。 

收集 可 推迟 目标 的 原因 如 下 : 

。 为 了 实现 基于 一 致 性 的 诊断 和 最 佳 推导 ; 

。 等 待 后 续 调 用 给 出 变量 的 值 而 推迟 带 有 变量 的 子 目标 ; 

。 为 了 省 去 创造 新 规则 的 中 间 步 又 一 一 例如 ， 如 果 用 户 或 数据 库 询问 推迟 的 目标 。 

这 被 称 为 部 分 评价 (partial evaluation)， 用 于 基于 解释 的 学 习 过 程 ， 以 省 去 证 明 的 
中 间 步 骤 。 

图 13-16 给 出 了 一 个 提供 推迟 的 元 解释 器 。 使 用 元 级 事实 delay(G) 表 示 可 以 推迟 基本 
级 原子 G。 可 推迟 的 原子 能 够 被 收集 到 一 个 没有 被 证 明 的 列表 中 。 

假设 能 够 证 明 dprove(G, [], D). $ D' 表 示 可 延迟 目标 D 的 列表 中 的 基本 级 原子 
的 合 取 ， 则 G<-D' 是 上 述 子 句 的 一 个 逻辑 结果 ， 并 且 对 于 所 有 的 dED, delay(dDAK. 


AWR D, 出 现在 D: HRB, 并且 G 是 DD, 中 可 延迟 的 原子 的 合 取 ， 则 dprove(G，Du ，D, ) 为 真 
dprove(true, D, D). 
dprave((A & B), D,, D;)<— 
dprove(A, D,, D,) A 
dprove(B, D,, Dy). 


dbroue(G，D，[G|D]) 一 
delay(G). 

dprove(H, D,, D,)+ 
(H=B)A 
dprove(B, D,, D;). 





13-16 ”收集 延迟 目标 的 元 解释 器 


【 例 13-26) 作为 基于 一 致 性 的 诊断 推迟 的 例子 ， 考 虑 如 图 13-10 所 示 的 无 ok 规则 的 
基本 级 知识 库 。 假 设 ok(G) 是 可 推迟 的 ， 将 其 表示 为 如 下 元 级 事实 : 

delay(ok(G)) 

查询 

ask d prove(live( p,),[].D) 
的 答案 为 D 二 [Lok(ch)]。 如 果 ok(ch AH, BA live(p AH. 

查询 

ask dprove((lit(l,) & live(p1)),[L],D) 
的 答案 为 D = [ok(ch,), ok(cb,), okls,)]. 

如 果 ch 和 ss AF ok, MAL 是 亮 的 并 且 p 是 活动 的 。 

注意 ，ok(cbi ) 在 列表 中 出 现 两 次 。dzrove 不 检查 列表 中 是 否 存在 多 个 可 推迟 的 实例 ， 
一 个 dprove 的 成 熟 版 本 不 会 增加 重复 的 推迟 。 参 见习 题 13. 8。 < 


13.6 本 章 小 结 


。“ 个 体 -特征 - 值 ” 三 元 组 形式 便于 灵活 通用 地 表示 关系 。 
。 本 体 是 知识 共享 的 基础 。 
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， OWL 本 体 由 个 体 、 类 和 属性 构建 。 类 是 一 个 实际 和 潜在 个 体 的 集合 。 属 性 将 数据 类 型 或 个 体 联 
系 起 来 。 

。 根据 语义 内 容 进 行 解释 推理 和 调试 知识 的 能 力 能 够 改善 基于 知识 的 系统 的 可 用 性 。 

。 元 解释 器 可 以 实现 一 个 可 定制 的 适合 表示 语言 需要 的 轻 量 级 知识 库 系 统 。 


13.7 参考 文献 及 进一步 阅读 


Brachman 和 Levesque [2004] 概述 了 如 何 表 示 知 识 的 方法 。Davis [1990] 介 绍 了 常识 性 推理 中 丰富 的 
知识 表示 问题 。Brachman 和 Levesque [1985] 发 表 了 很 多 经 典 的 知识 表示 的 论文 。Woods [2007] 给 出 有 
关 语 义 网 的 最 新 概述 。 

如 果 希 望 从 哲学 和 计算 机 的 角度 了 解 本 体 ， 可 参阅 Smith [2003]。 语 义 Web 的 概述 参阅 Antoniou 和 
Van Harmelen [2008]; Berners-Lee, Hendler 和 Lassila [2001]; Hendler, Berners-Lee 和 Miller [2002] 。 
ABH OWL 描述 基于 OWL-2; AK OWL-2 的 描述 可 以 参阅 Hitzler, Krotzsch, Patel-Schneider 和 
Rudolph [2009]; Motik, Patel-Schneider 和 Parsia [2009b]; Motik, Patel-Schneider 和 Grau[ 2009a] 。 
Turtle Beckett 和 Berners-Lee [2008] 提 出 的 一 种 语言 。 

Grenon 和 Smith [2004] #348 T BFO。 其 他 顶层 本 体 ， 包括 DOLCE [Gangemi，Guarino，Masolo， 
Oltramari, 2003 ]，SUMO [ Niles, Pease, 2001 ]，Cyc [ Panton, Matuszek, Lenat, Schneider, 
Witbrock, Siegel, Shepard, 2006]. Noy 和 Hafner [1997] 比 较 了 不 同 的 顶层 本 体 。 

Bowen [1985] 和 Kowalski [1979] 讨 论 了 元 解释 器 逻辑 。Abramson 和 Rogers [1989] 总 结 了 现 有 的 元 
解释 器 ， 


13.8 习题 


13.1 本 练习 的 目的 是 探讨 相同 域 的 多 种 表示 。 

在 一 个 3X3 方 格 上 的 tic-tac-toe 游戏 中 ， 两 名 玩家 和 和 O， 交 蔡 地 在 空白 位 置 留 下 标记 。 当 
轮 到 XX 放置 标志 时 ， 如 果 他 可 以 将 三 个 六 标志 在 同一 条 直线 上 ， 那么 XX 获胜 。 例 如， 在 如 下 状 
态 中 ， 在 左 侧 中 间 的 空位 置 上 留 下 义 标 记 ，X 便 可 以 获胜 。 

xojo 
X O 

Fred, Jane, Harold 和 Jennifer 每 个 人 编写 一 个 程序 使 得 在 已 知 一 个 游戏 的 状态 下 ，X 在 下 
一 步 可 获胜 。 他 们 每 个 人 要 决定 游戏 状态 的 不 同 表 示 ， 比 较 他 们 的 表示 方法 。 

Fred 使 用 一 个 有 三 行 的 列表 表示 此 游戏 的 状态 ， 列 表 的 每 行 都 包含 三 个 元 素 ， 这 三 个 元 素 分 
别 是 zx、o 或 5( 表 示 空 白 )。Fred 用 如 下 的 列表 表示 上 面 的 状态 : 

[[z,0,0] ,Lb,z,6),Lz,6,0]] 

Jane 使 用 两 个 数字 ， 即 用 横 纵 坐标 描述 每 个 点 的 位 置 。 例 如 ， 将 左上 角 的 X 的 位 置 表 示 为 
pos(1, 3), A PAM X WAL posd, 1), FH. Jane 将 游戏 的 状态 表示 为 tti:(XPs，OPs)， 这 
里 XPs 是 X 的 位 置 ， OPs 是 O 的 位 置 。 因 此 ，Jane 将 上 述 状 态 表示 为 ; 
tti(Lpos(1,3), pos(2,2), pos(1,1)],Lpos(2,3), pos(3,3), pos(3,1)]) 

Harold 和 Jennifer 都 意识 到 ，tic-tac-toe 游戏 的 位 置 可 以 用 魔方 来 表示 ; 


6/7] 2 
TGE 
T: S E- Sa 4 


将 游戏 转化 为 一 个 两 人 轮流 选择 一 个 数字 的 游戏 。 同 一 个 数字 不 可 以 被 选择 两 次 ， 首 先 选 择 
出 总 和 为 15 的 三 个 数字 的 玩家 获胜 。 
Harold 将 游戏 状态 表示 为 由 九 个 元 素 组 成 的 列表 ， 其 中 每 个 元 素 是 zx、 或 了 ， 这 取决 于 魔方 
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对 应 的 位 置 是 由 XX 控制， 还 是 由 O 控制 ， 或 是 空白 的 。 因 此 ，Harold 使 用 下 面 的 列表 表示 上 面 的 

游戏 状态 - 
[56,0,610; TXT10s Tb] 
Jennifer 将 游戏 表示 为 一 个 由 X 和 O 选择 的 数字 列表 对 。 她 将 以 上 游戏 表示 为 : 
magic([6,5,8|,[7,2,4]) 

(a) 基于 上 述 四 种 表示 方法 中 的 每 一 种 ， 写 一 个 关系 来 决定 X 是 否 获胜 ， 例 如 z_won_fred 
(State)， 表 示 基 于 Fred 的 方法 ,在 状态 State KX 赢得 了 比赛 (类 似 地 写 出 其 他 三 种 表 
示 方 法 )。 

(b) 哪 种 表示 更 容易 使 用 ? 解释 为 什么 。 

Co) 哪 种 表示 可 以 更 有 效 地 获胜 ? 

Cd) 如 果 某 玩家 获胜 ， 哪 种 表示 可 以 以 最 简单 的 算法 来 确保 玩家 不 会 在 下 一 步 失败 ? 

(Ce) 你 认为 哪 种 表示 最 好 ? 解释 为 什么 ， 提 出 一 种 更 好 的 表示 。 

Sam 提出 任何 ?元 关系 已 CXI Xs X, ，…，X,) 可 以 表示 为 n 一 1 个 二 元 关系 ， 即 

Py CX: Xz) 

P; (XX) 

Ps (Xe Xi) 


Per (Xr » Xn) 
向 Sam 解释 这 种 方法 的 缺陷 。 如 果 Sam 这 样 表 示 ， 会 遇 到 什么 问题 ? 
为 整理 你 桌子 的 机 器 人 生成 一 个 本 体 ， 表 示 经 常 摆 放 在 你 办 公 桌 上 的 物品 。 考 虑 以 下 问题 : (a) 机 
器 人 能 感知 对 象 ，(b) 应 该 能 够 区 分 任务 。 
使 用 OWL 写 出 海滨 度假 村 的 定义 。 “海滨 度假 村 "是 一 个 靠近 海 或 者 湖 的 ， 可 以 提供 游泳 、 住 宿 
和 饮食 的 地 方 。 
豪华 饭店 有 多 个 房间 可 供 租 住 ， 每 个 房间 都 很 舒适 并 可 以 看 风景 ， 并 且 至 少 有 一 间 和 餐厅 可 以 同时 
为 素食 者 和 肉食 者 提供 饮食 服务 。 
(a) 使 用 OWL 定义 豪华 饭店 ， 做 合理 的 假设 ， 规 范 是 模糊 的 。 
(b) 再 提出 豪华 饭店 的 三 个 其 他 属性 ， 并 对 每 个 属性 分 别 给 出 自然 语言 定义 和 OWL 的 描述 。 
用 BFO 对 下 述 子 句 分 类 
(a) 你 的 皮肤 
(b) 前 面 句子 结束 处 的 句号 
(e) 一 个 孩子 在 假期 前 的 兴奋 
Cd) 假期 回 家 的 旅行 
(e) 计算 机 程序 
(f) 暑假 
(g) 一 个 电话 铃声 
h) 你 桌 上 的 灰尘 
(GD 打扫 你 办 公 室 的 任务 
0) 某 人 是 否 得 流感 的 诊断 
在 上 述 经 验 的 基础 上 ， 提 出 并 证 明 一 种 BFO 的 修改 方案 ， 考 虑 在 BFO PMWM KARAM 
或 非 独 占 的 情况 。 
修改 图 13-12 的 深度 有 限 元 解释 器 ， 使 得 ， 
(a) 界限 是 证 明 的 总 长 度 ， 这 里 长 度 为 出 现在 证 明 中 的 基本 级 原子 实例 总 数 。 
(b) 不 同 的 基本 级 原子 在 界限 上 的 成 本 是 不 同 的 。 例 如 ， 大 多 数 原 子 是 零 成 本 ， 一 些 原子 的 成 本 
为 正 值 。 
讨论 为 什么 上 述 情 况 比 使 用 树 的 深度 更 好 或 更 坏 ? 
当 给 定 一 个 正 的 边界 值 ， 在 什么 条 件 下 会 保证 证 明 过 程 不 会 陷 人 死 循 环 ? 
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13.8 图 13-16 的 程序 允许 复制 推迟 的 目标 。 写 一 个 dprove 版 本 ， 该 版 本 以 最 简 的 形式 返回 推迟 目标 的 


13. 
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最 小 集合 。 
写 一 个 可 以 寻求 多 种 信息 源 的 元 解释 器 。 假 设 每 个 信息 源 由 一 个 通用 资源 标识 符 (URIT) 识 别 。 假 
定 存在 如 下 谓词 : 
。 如 果 由 URI 表示 的 资源 能 够 给 出 与 问题 Q 一 致 的 答案 ， 则 can_answer(Q, URDHER. 
。 WMR RÆ URI 的 某 种 可 靠 性 的 数值 度量 ， 则 reliability (URI, DAA., 假设 R 的 范围 是 
[一 100，100]， 其 中 数值 越 高 ， 意 味 着 越 可 靠 。 
。 向 URI 代表 的 信息 源 询 问 一 个 问题 Q， 其 给 出 的 Answer Æ { yes, no, unknown} =#2—, W 
askSite(URI, Q, Answer) AK. 
写 一 个 可 以 利用 多 种 信息 源 并 返回 可 靠 性 答案 的 元 解释 器 ， 答 案 的 可 靠 性 是 该 信息 来 源 使 用 
可 靠 性 的 最 低 值 。 当 没有 外 部 来 源 时 ， 必 须 有 一 些 约定 (例如 ， 可 靠 性 取 200)。 只 可 以 问 信息 源 
可 以 回答 的 已 经 记录 的 问题 。 
写 一 个 可 以 询问 用 户 yes-or-no 问题 的 元 解释 器 ， 要 求 该 元 解释 器 不 问 已 知 答案 的 问题 。 
扩展 可 询问 用 户 的 元 解释 器 。 解 释 谓词 是 函数 化 的 并 可 以 做 出 相应 的 反应 。 
元 解释 器 构建 了 图 13-13 中 的 证 明 树 ， 写 一 个 程序 融合 该 元 解释 器 产生 的 树 ， 使 用 how 问题 遍历 
此 树 。 
写 一 个 支持 how 和 why 查询 的 元 解释 器 。 允 许 在 why 查询 后 增加 how 查询 。 解 释 这 个 程序 如 何 
起 作用 。 
写 一 个 支持 迭代 深度 搜索 的 限定 子 句 的 元 解释 器 。 要 求 该 元 解释 器 与 深度 优先 搜索 算法 返回 的 查 
询 结果 一 致 。 
建立 一 个 从 代 深度 回溯 推理 系统 ， 找 到 最 小 的 一 致 性 的 可 假设 集合 来 蕴含 一 个 目标 。 可 以 参考 
图 13-12 所 示 的 深度 有 限 元 解释 器 和 图 13-16 所 示 的 推迟 元 解释 器 。 深 度 范围 应 根据 证 明 中 使 用 
的 假设 数 来 确定 。 假 设 可 假设 集 都 是 研究 的 范围 。 
分 为 两 部 分 完成 : 
(a) 基于 和 迭代 加 深 可 假设 数 的 方法 找到 蕴含 某 个 g 的 最 小 可 假设 集 。 当 g 为 假 时 ， 程 序 会 找到 最 
小 的 冲突 。 
(b) 根据 (a) ， 通 过 交叉 发 现 冲 突 ， 找 到 g 的 最 小 解释 ， 得 到 蕴含 g 的 最 小 可 假设 集 。 
为 参数 化 的 逻辑 程序 写 一 个 元 解释 器 。 这 些 逻辑 程序 能 够 在 算术 表达 式 中 使 用 常数 ， 常 数值 作为 
元 解释 器 的 输入 部 分 。 
假设 环境 为 val( Parm，Val) 的 术语 列表 ， 其 中 Val 的 值 与 参数 Parm 有 关 。 假 设 输入 中 每 
个 参数 在 环境 中 只 出 现 一 次 。 例 如 [val(a, 7), val(b, 5)]. 
在 AILog 中 ， 可 以 使 用 “< 二” 作为 基本 级 蕴含 ， 使 用 “&" 作 为 基本 级 合 取 。AlILog H< E 
义 为 一 个 中 缀 运算 符 ，number 是 一 个 内 置 谓词 。 
(a) 如 果 参 数 Parm 在 环境 Env 中 的 值 为 Val， 谓 词 lookup(Parm, Val, Env) AH. 
(b) 如 果 参 数 化 的 算术 表达 式 Exp 在 Env HA Val, 谓词 eval(Ezp，Val，Env) 为 真 ， 表达 式 
可 以 是 如 下 之 一 : 
。 形式 为 (已 十 E:), (E * EE)，(E/E;)，(E, 一 E;)， 其 中 E ME, 为 参数 化 的 算术 表达 式 ; 
© 一 个 数 # 
。 一 个 参数 。 
假设 运算 符 使 用 它们 通常 的 含义 ,数字 评 价 自身 ,参数 评价 环境 中 的 值 。 可 以 使 用 
AILog 谓词 is。 当 非 参 数 化 表达 式 EE 的 值 为 N 时 ，N is EXN. 如果 世 是 一 个 数字 ， 
number(E)AR. 
(c) MRA G 是 基本 级 知识 库 的 逻辑 结果 ,谓词 pprove(G，Env) 为 真 ， 其 中 参数 在 环境 Env 
中 解释 。 
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与 AILog 交互 的 例子 如 下 : 

ailog: tell f(X,Y) <= Y is 2*at+b*X. 

ailog: ask pprove(f(3,Z),[val(a,7),val(b,5)]). 

Answer: pprove(f (3,29), [val(a,7) ,val(b,5)]). 
[ok,more,how,help]: ok. ; 

ailog: ask pprove(f(3,Z),[val(a,5),val(b,7)]). 

Answer: pprove(f (3,31), [val(a,5),val(b,7)]). 
[ok,more,how,help]: ok. 

ailog: tell dsp(X,Y) <= Z is X*X*a & Y is Z*Z*b. 

ailog: ask pprove(dsp(3,Z), [val(a,7),val(b,5)]). 

Answer: pprove(dsp(3,19845), [val(a,7) ,val(b,5)]). 
[ok,more,how,help]: ok. 

ailog: ask pprove(dsp(3,Z), [val(a,5),val(b,7)]). 

Answer: pprove(dsp(3,14175) , [val(a,5),val(b,7)]). 
[ok,more,how,help]: ok. 
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Artificial Intelligence: Foundations of Computational Agents 


关系 规划 、 学 习 和 概率 推理 





现在 需要 做 的 是 最 大 可 能 地 发 展 数 学 逻辑 ， 从 而 能 够 完整 表达 关系 的 重要 性 ， 并 将 一 
个 新 的 哲学 遇 辑 置 于 这 坚实 的 基础 之 上 。 这 个 新 建立 的 哲学 远 辑 可 望 从 这 个 数学 基础 借鉴 
一 些 精确 性 和 确定 性 。 如 果 这 个 任务 能 够 实现 ， 则 我 们 有 充分 的 理由 去 期 待 不 久 的 将 来 会 
是 一 个 与 数学 原理 之 于 近代 那样 伟大 的 纯 理 论 哲 学 时 代 。 伟 大 的 胜利 孕育 巨大 的 希望 ; 在 
我 们 这 一 代 ， 纯 理论 思维 可 能 产生 的 伟大 的 结果 ， 有 可 能 将 我 们 的 时 代 与 最 伟大 的 古 希 腊 
时 代 比 肩 。 
一 一 Bertrand Russell[1917 ] 


表示 方案 维度 有 作为 顶层 的 个 体 与 关系 推理 。 关 系 推 理 允 许 使 用 压缩 的 表示 方法 ， 该 
方法 可 在 Agent 遇 到 特定 个 体 之 前 建立 。 当 一 个 Agent 被 引荐 给 一 个 新 个 体 时 ， 它 能 推断 
其 与 该 个 体 的 关系 。 本 章 概述 在 三 个 AI 领域 中 如 何 扩展 基于 特征 的 表示 以 处 理 个 体 与 关 
系 。 在 其 中 的 每 一 个 领域 ， 关 系 的 表示 受益 于 能 够 在 知道 个 体 之 前 (因此 ， 也 是 在 知道 特 
征 之 前 ) 建 立 。 正 如 Russell 在 上 面 的 引文 中 所 指出 的 那样 ， 关 系 的 推理 相 比 命题 的 (及 基 
于 特征 的 ) 表 示 具 有 很 大 的 优势 。 


14. 1 规划 个 体 与 关系 


Agent 的 目标 及 其 环境 经 常 使 用 个 体 和 关系 来 描述 。 在 Agent 的 知识 库 建立 后 ， 且 知 
道 其 应 该 推理 的 对 象 之 前 ， 它 需要 一 个 独立 于 个 体 的 表示 法 。 因 此 ， 它 必须 采用 超越 基于 
特征 的 表示 法 。 当 个 体 已 知 时 ， 可 以 不 使 用 基于 特征 的 表示 法 。 使 用 不 依赖 于 特定 领域 的 
表示 法 进行 推理 常常 是 有 用 的 。 

通过 关系 的 表示 ， 我 们 可 以 具体 化 时 间 。 时 间 (time) 可 以 使 用 指示 了 时 间 点 的 个 体 或 
表示 了 时 间 段 的 个 体 来 表示 。 本 节 介 绍 两 种 关系 的 表示 法 ， 其 区 别 在 于 具体 化 时 间 的 方法 
不 同 。 


14.1.1 情景 演算 


情景 演算 (situation calculus) 背 后 的 思想 是 那些 (可 达 的 ) 状 态 可 由 为 达到 它们 所 需要 
的 行动 来 定义 。 这 些 可 达到 的 状态 被 称 为 情景 。 一 个 情景 中 的 真 可 由 此 情景 中 的 关系 定义 
为 一 个 参数 。 可 将 情景 演算 视 为 动作 的 基于 特征 表示 的 关系 版 本 。 

这 里 ， 我 们 仅 考 虑 一 个 Agent、 一 个 完全 可 观察 的 环境 及 确定 性 的 动作 。 

情景 演算 由 情景 来 定义 。 一 个 情景 (situation) 是 下 面 两 者 之 一 : 

e init: 初始 情景 。 

。 do(A, S): 在 情景 S 中 执行 动作 A 而 产生 的 结果 情景 (假设 在 情景 S 中 可 以 执行 

动作 A)。 

【 例 14-1】 考虑 图 3-1 的 领域 背景 。 假 设 在 初始 状态 init 时 ， 机 器 人 rob 在 位 置 o109， 

且 邮 件 收 发 室 (zzaii) 中 有 一 把 钥匙 kl, ERRE (storage) PH—-T+ AR. . 
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do(move(rob,o0109 ,0103)., init) 
是 机 器 人 rob 由 情景 init 的 位 置 o109 移动 到 位 置 o103 后 的 情景 。 在 这 个 情景 中 ，rob 在 
0103 WE, A kl 仍然 在 mail ME, BAIE storage 位 置 。 
情景 
do(moverob,0103,mail) , 
do(move (rob,0109,0103) , 
init) ) 
是 机 器 人 已 经 从 位 置 0109 移动 到 o103， 并 继续 移动 到 mail, H 4A AMMA. 
假设 rob 随后 拿 起 了 钥匙 &1， 则 得 到 的 情景 是 : 
do( pickup (rob,k1), 
do (move(rob,o0103,mail) , 
do(move (rob,0109,0103) , 
init))) 
在 这 个 情景 中 ，rob 正在 位 置 mail 拿 着 钥匙 &1 。 < 
一 个 情景 可 以 和 一 个 状态 相 联系 。 情 景 和 状态 有 两 个 主要 的 区 别 : 
。 如 果 多 个 动作 序列 最 终结 束 于 同一 个 状态 ， 那 么 多 个 情景 就 可 能 指示 着 同一 个 状 
态 。 也 就 是 说 ， 情 景 之 间 的 等 价 与 状态 之 间 的 等 价 并 不 相同 。 
。 不 是 所 有 的 状态 都 有 相对 应 的 情景 。 如 果 存 在 一 个 行动 序列 使 得 从 初始 状态 出 发 
可 以 到 达 一 个 状态 ， 则 称 该 状态 是 可 达 的 (reachable)。 不 可 达 的 状态 没有 相对 应 
的 情景 。 
一 些 do(A，S) 项 并 不 对 应 任何 状态 。 然 而 ， 有 时 Agent 必须 在 不 知道 A 是 否 可 能 处 
于 状态 S 或 状态 S 是 否 可 能 达到 的 情况 下 对 这 种 (潜在 的 ) 情 景 进行 推理 。 
LB] 14-2〗 项 do(lunlock(rob，doorl)，init) 根 本 不 表示 任何 一 个 状态 ， 因 为 当 rob 不 
在 门 旁边 且 没 有 钥匙 时 ， 是 不 可 能 打开 门 的 。 < 
静态 (static) 关 系 是 指 其 真 值 不 依赖 于 情景 的 关系 ， 即 其 真 值 并 不 随时 间 而 改变 。 动 
态 (dynamic) 关 系 是 指 其 真 值 依赖 于 情景 的 关系 。 为 表示 一 个 情景 中 什么 是 真 的 ， 表 示 动 
态 关 系 的 谓词 要 有 一 个 情景 参数 ， 从 而 其 真 值 可 依赖 于 情景 。 带 有 情景 参数 的 谓词 被 称 为 
He (fluent) 。 
【 例 14-3] 当 对 象 O 在 情景 S 中 处 于 位 置 L NH, KK aO, L, DAR. Ast. at 
是 一 个 流 。 
原子 
at(rob,o109 ,init) 
为 真 ， 如 果 机 器 人 rob 在 初始 情景 中 处 于 位 置 o109。 原 子 
at(rob,0103 ,do(move(rob,0109 ,0103) ,init)) 
为 真 ， 如 果 机 器 人 rob 从 初始 情景 开始 从 位 置 o109 移动 到 位 置 o103， 并 且 机 器 人 在 最 后 
产生 的 情景 中 位 于 o103。 原 子 
at(k1,mail,do(move(rob,o109 ,0103) , init) ) 


为 真 ， 如 果 机 器 人 rob 从 初始 情景 开始 从 位 置 o109 移动 到 位 置 o103， 并 且 在 最 后 产生 的 


情景 中 ，k1 位 于 mail 处 。 可 
l 可 通过 指定 情景 来 公理 化 动态 关系 (在 指定 的 情景 中 ， 动 态 关系 的 值 为 真 )。 通 常 ， 这 
可 通过 情景 的 结构 归纳 完成 。 


。 init 作为 情景 参数 的 公理 用 来 指明 初始 情景 中 什么 为 真 。 
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。 原始 (primitive) 关 系 通过 在 形 如 do(A，S) 的 情景 中 ， 根 据 情景 S 中 什么 为 真 来 确定 关 
系 什么 时 候 为 真 来 定义 。 也 就 是 说 ， 原 始 关系 依据 在 前 一 个 情景 中 什么 为 真 来 定义 。 

。 导出 (derived) 关 系 通过 带 有 情景 参数 的 子 句 来 定义 。 导 出 关系 在 一 个 情景 中 是 否 
为 真 依赖 于 在 该 情景 中 其 他 因素 是 否 为 真 。 

。 静态 关系 的 定义 跟 情景 无 关 。 

[Hil 14-4) 假设 传送 机 器 人 rob 处 于 图 3-1 所 描绘 的 域 中 。rob EMH 0109, fae 
(parcel) 在 储藏 室 (storage)， 钥 匙 (key) 在 邮件 收发 室 (mail)。 下 面 的 公理 描述 了 这 个 初 
始 的 情景 : 

at(rob,ol09 init) 

at(parcel, storage,init) 

at(kl ,mail,init) 

邻接 关系 adjacent 是 一 个 动态 的 导出 关系 ， 其 定义 如 下 : 

adjacent(o109,0103,S) 

adjacent(o0103,0109,S) 

adjacent(o109,storage,S) 

adjacent( storage,ol109,S) 

adjacent(v109,0111,S) 

adjacent(ol11,0109,S) 

adjacent(ol03,mail,S) 

adjacent(mail,o103,S) 

adjacent(lab2,0109,S) 

adjacent(P,,P:,S) «= 

between( Door, P,,P:) A 
unlocked( Door,S) 

注意 自由 变量 S， 这 些 子 句 对 于 所 有 的 情景 都 为 真 。 我 们 不 能 省 略 S， 因 为 房间 的 邻 
接 关系 依赖 于 门 是 否 打 开 了 。 这 个 关系 在 不 同 的 情景 下 可 能 不 同 。 

关系 between 是 静态 的 ， 不 需要 一 个 情景 变量 ; 

between( door] ,0103 ,Lap2) 

我 们 还 可 以 区 分 Agent 是 否 正 在 搬运 。 如 果 一 个 对 象 没 有 被 搬运 ， 那 么 我 们 说 这 个 对 
象 正 处 在 它 的 位 置 上 。 我 们 之 所 以 区 分 搬运 事件 是 因为 一 个 正在 被 搬运 的 对 象 是 随 着 搬运 
它 的 对 象 而 移动 的 。 对 象 处 于 一 个 位 置 有 两 种 情况 : 它 自 己 本 就 处 于 那个 位 置 ， 或 者 正 被 
另 一 个 处 于 那个 位 置 的 对 象 搬运 。 因 此 ， 关 系 at 是 一 个 导出 关系 : 

at(Ob,P,S)=- 

sitting_at(Ob, P, S) 

at(Ob, P, S) 

carrying(Obl, Ob, S)A 
at(Obl, P, S) 

注意 ， 这 个 定义 允许 机 器 人 搬运 一 个 袋子 ， 而 这 个 袋子 正 搬运 着 一 本 书 。 < 

动作 的 前 件 (precondition) 具 体 说 明了 什么 时 候 才 可 能 执行 这 个 动作 。 当 动作 A 在 情 
景 S 中 可 能 被 执行 时 ， 关 系 boss(A，S) 为 真 。 通 常 ， 这 是 一 个 导出 关系 。 

KBJ 14-5) Agent 总 能 放下 它 正 搬运 的 物体 : 

poss (putdown( Ag .Obj) ,S)<- 

carrying(Ag,Obj.S) 
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对 于 动作 move， 一 个 自治 Agent 可 以 从 它 当 前 的 位 置 移动 到 一 个 邻接 的 位 置 : 
poss (movel Ag, Pi ,P2),5)<— 
autonomous Ag) 人 
adjacent(P,,P;,5)A 
sitting_at(Ag, P,, S) 
开锁 动作 Cunlock) 的 前 件 比较 复杂 。Agent 必须 在 门 的 正确 的 一 侧 并 且 拿 着 合适 的 
HE: 
poss (unlock (Ag , Door) ,S)<- 
autonomous(Ag) 人 
between( Door, P, , P2) A 
at(Ag,P,.S)A 
opens( Key, Door) A 
carrying(Ag,Key,5S) 
我 们 并 不 假定 between 关系 是 对 称 的 。 一 些 门 只 能 单 向 通行 。 < 
我 们 根据 前 一 情景 及 转换 到 当前 情景 时 发 生 的 动作 来 递归 地 定义 每 个 情景 中 的 真 。 正 
如 动作 的 基于 特征 的 表示 中 使 用 的 规则 那样 ， 因 果 规 则 (causal rule) 明确 一 个 关系 什么 时 
修 为 真 ， 框 架 规 则 (frame rule) 说 明 一 个 关系 什么 时 候 保持 真 。 
【 例 14-6〗 原始 的 unlocked 关系 可 通过 具体 说 明 不 同 的 动作 如 何 影 响 其 为 真 来 定义 。 
只 要 开锁 的 动作 是 可 执行 的 ， 那 么 在 执行 了 开锁 动作 之 后 的 情景 中 ， 门 是 打开 的 。 这 可 用 
下 面 的 因果 规则 来 表示 : 
unlocked ( Door ,do(Cunlock( Ag, Door) ,S))< 
poss(unlock(Ag , Door) , S) 


假设 唯一 可 以 使 门 锁 起 来 的 行为 是 锁 门 的 动作 。 因 此 ，uniocked 在 如 下 三 种 执行 了 一 


个 动作 后 所 产生 的 情景 中 为 真 : unlocked 在 执行 动作 之 前 为 真 ; 执行 的 动作 不 是 锁 门 的 动 ， 


作 lock; 能 够 执行 该 动作 。 
unlocked (Door ,do(A,S))<— 
unlocked (Door, S) A 
A#lock( Door) A 
poss(A.S) 
这 是 一 个 框架 规则 。 < 
【 例 14-7] 谓词 carrying 可 定义 如 下 。 
Agent 在 拿 起 (pickup) 一 个 对 象 之 后 就 是 正在 搬运 (carrying) 这 个 对 象 : 
carrying (Ag,Obj.do( pickup(Ag,Obj) ,S))< 
poss( pickup(Ag,Obj),S) 
撤销 carrying 谓词 的 唯一 动作 是 放下 (putdown) 动 作 。 因 此 ， 在 执行 了 一 个 动作 之 
ja, carrying 为 真 的 情况 有 如 下 两 种 :carrying 在 该 行为 之 前 为 真 ; 该 动作 不 是 放下 对 象 
的 动作 。 这 可 由 框架 规则 表示 如 下 : 
carrying (Ag ,Obj ,do(A,S))< 
carrying(Ag,Obj.S) A 
poss(A,S) A 
AF putdown( Ag ,Obj) < 
{Gl 14-8] 原子 sitting_at(Obj, Pos, S,)tE HMR Obj BAB Pos 而 生成 的 情景 S， 
中 为 真 ， 只 要 上 述 动作 能 够 执行 : 
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sitting_at(Obj, Pos, do(move(Obj, Pos), Pos), S))< 
poss(move(Obj, Poss. Pos), S) 
另 一 个 使 sitting _at 为 真 的 情况 是 执行 putdown 动作 。 对 象 位 于 Agent 将 它 放 下 时 所 
处 的 位 置 : 
sitting_at(Obj, Pos, do(putdown(Ag, Obj), S))< 
poss( putdown(Ag, Obj), S)A 
at(Ag, Pos, S) 
其 他 唯一 可 使 sitting at 在 一 个 ( 非 初 始 的 ) 情 景 中 为 真 的 情况 是 它 在 之 前 的 情景 中 为 
真 且 没有 被 一 个 动作 改变 其 状态 。 可 以 改变 sitting_at 的 动作 只 有 move 和 pickup. KAT 
用 如 下 的 框架 公理 来 表示 : 
sitting_at(Obj, Pos, do(A, S))<+ 
poss(A, S)A 
sitting_at(Obj, Pos, S)A 
Y Pos; A#move(Obj, Pos, Posi) A 
V Ag AF pickup(Ag, Obj) 
请 注意 ， 上 面 规则 中 的 量词 不 是 描述 规则 的 标准 量词 。 也 可 以 通过 使 用 否定 即 失败 推 
理 来 表示 该 规则 : 
sitting _at(Obj, Pos, do(A, S))—— 
poss(A, S)A 
sitting _at(Obj, Pos, S)A 
~move_action(A, Obj, Pos) A 
~ pickup_action(A, Obj) 
move_action(move(Obj, Pos, Posi), Obj, Pos) 
pickup_action( pickup(Ag, Obj), Obj) 
在 上 面 的 否定 范围 内 ， 这 些 子 句 中 没有 自由 变量 。 < 
【 例 14-9) 情景 演算 可 以 表示 更 为 复杂 的 动作 ， 而 不 只 是 可 以 通过 在 状态 描述 中 简单 
增加 和 删除 命题 就 可 表示 的 动作 。 
考虑 drop_everything 动作 。 执 行 该 动作 后 ，Agent 会 放下 其 正在 搬运 的 所 有 东西 。 
在 情景 演算 中 ， 可 在 sitting at 的 定义 中 加 入 下 面 的 公理 来 表示 Agent 先前 正 搬运 的 所 有 
东西 现在 都 被 放 到 了 地 上 : 
sitting_at(Obj, Pos, do(drop_everything(Ag), S))< 
poss(drop_everything(Ag), S)A 
at(Ag, Pos, S)A 
carrying(Ag, Obj, S) 
针对 carrying 的 框架 公理 明确 了 Agent 在 drop_everything 动作 后 没有 搬运 任何 
对 象 。 
carrying (Ag,Obj ,do(A,S))<— 
poss(A,S) 人 
carrying(Ag,Obj,S) A 
A-#drop_everything(Ag) 人 
A= putdown(Ag, Obj) 
itt, drop_everything 动作 能 影响 的 对 象 数量 没有 限制 。 < 
情景 演算 通过 要 求 一 个 使 得 目标 为 真 的 情景 被 用 于 规划 (planning)。 答 案 抽 取 被 用 于 
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寻找 一 个 使 得 目标 为 真 的 情景 。 这 个 情景 可 解释 为 Agent 要 做 的 一 系列 动作 。 

【 例 14-10) 假设 机 器 人 的 目标 是 得 到 钥匙 kl。 下面 的 查询 是 要 请 求 一 个 使 该 目标 为 
真 的 情景 : 

? carrying (rob,k1,S) 

这 个 查询 有 如 下 的 答案 : 

S=do( pickup (rob,k1), 

do( move (rob,0103,mail), 
do (move (rob,0109,0103), 
. init))) 

这 个 结果 可 被 解释 为 rob 拿 到 钥匙 的 一 种 方式 : EM 0109 移动 到 o103， 然 后 移动 到 
maii， 在 这 里 它 拿 起 了 钥匙 。 

把 包 衰 ( 初 始 位 置 在 休息 室 ing) 运 送 到 o111 的 目标 可 以 通过 如 下 查询 来 询问 : 

? at( parcel,ol11,S) 

这 个 查询 有 如 下 的 答案 : 

S=do(move (rob,o109,0111), 

dol move (rab,lng.0109), 
do( pickup (rob, parcel) , 
do(move(rob,o109,lng) ,init)))) 

Auk, rob WRERKRE, SHEAR, HB) o109， 然 后 再 去 0111。 < 

在 情景 演算 定义 中 使 用 自 项 向 下 的 证 明 过 程 是 非常 低 效 的 ， 因 为 框架 公理 几乎 总 是 适 
用 的 。 一 个 完整 的 证 明 过 程 ， 如 迭代 加 深 ， 会 搜索 动作 的 所 有 置换 ， 包 括 那 些 与 目标 无 关 
的 置换 。 答 案 抽 取 的 使 用 并 不 否定 使 用 高 效 的 规划 器 的 必要 性 ， 正 如 第 8 章 中 的 内 容 
那样 。 


14.1.2 事件 演算 


第 二 种 表示 方法 一 一 事件 演算 (event calculus) ， 建 模 了 关系 的 真 值 如 何 依据 发 生 在 某 
些 时 间 的 事件 而 发 生变 化 。 时 间 可 被 建 模 为 连续 的 ， 也 可 被 建 模 为 离散 的 。 

事件 被 建 模 为 发 生 在 特定 的 时 间 。 事 件 王 发 生 在 时 间 工 可 记 为 euent( 正 ，T) 。 

事件 使 一 些 关系 为 真 ， 使 另 一 些 关系 不 再 为 真 : 

。 initiates(E, R, AH, WIR E EE T ERMKAR AB; 

。 terminates(E, R, DHE., MRS E EMT ERRAR 不 再 为 真 。 

时 间 T Æ initiates Fil terminates 的 一 个 参数 ， 因 为 一 个 事件 的 影响 还 依赖 于 当时 其 他 
一 些 因素 是 否 为 真 。 例 如 ， 试 图 打开 一 扇 门 的 结果 依赖 于 机 器 人 的 位 置 及 它 是 否 拿 着 合适 
的 钥匙 。 

在 任何 时 刻 ， 关 系 非 真 即 假 。 在 事件 演算 中 ， 关 系 被 具体 化 了 ， 其 中 用 holds(R, T) 
表示 关系 及 在 时 间 T 为 真 。 这 与 情景 演算 中 工作 为 尺 最 后 一 个 参数 是 类 似 的 。 元 谓词 
holds 的 使 用 适用 于 对 所 有 关系 都 为 真 的 一 般 规则 。 

导出 关系 可 以 通过 同时 使 用 原始 关系 和 其 他 导出 关系 来 定义 。 

如 果 一 个 发 生 在 TT 时 间 之 前 的 事件 使 关系 R 为 真 ， 并 且 没 有 干扰 事件 使 R 不 再 为 真 ， 
WERKA RERET 为 真 。 这 可 以 说 明 如 下 : 
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holds (R,T)<- 
event(E,T。) A 
To<TA 
initiates(E,R,T,) A 
~clipped(R,T,,T) 
clipped (R.T,.T)= 
event(E, ,T,) A 
terminates E, .R,T,) A 
Ty <T; A 
TT 
原子 clipped(R, To, BRAM) T。 和 了 之 间 发 生 了 一 个 事件 使 得 R 不 再 为 
真 ; T.<T, 为 真 ， 如 果 时 间 Tu 在 时 间 T 之 前 。 这 里 ， 一 表示 和 否定 即 失 败 ， 因 此 这 些 子 
句 意味 着 它们 的 完备 性 。 
对 于 动作 ， 可 用 它们 的 激发 的 属性 和 终止 的 属性 来 表示 。 在 情景 演算 中 ， 动 作 的 前 件 
用 poss 关系 来 限定 。 
【 例 14-11] 只 要 动作 pickup 的 前 件 为 真 ， 则 它 从 激发 carrying 关系 开始 ， 并 终止 
F sitting_at 关系 : 
initiates ( pickup(Ag,Obj) ,carrying(Ag,Obj),T)<- 
poss( pickup(Ag.Obj) .T) 
terminates ( pickup(Ag,Obj) ,sitting_at(Obj, Pos), TT) 
poss(pickup(Ag, Obj), T) 
poss( pickup(Ag, Obj), T)= 
autonomous( Ag) 人 
Ag#Obj A 
holds(at(Ag, Pos), TOA 
holds(sitting_at(Obj, Pos), T) 
这 意味 着 当 动作 pickup 的 前 件 不 成 立时 ， 执 行 该 动作 将 不 会 发 生 任何 事情 。 也 可 以 
用 一 些 子 句 来 说 明 在 不 同 的 环境 下 执行 该 动作 会 发 生 什么 ， 例 如 试图 拿 起 一 个 被 其 他 物件 
持 有 的 对 象 时 所 发 生 的 情况 。 4 
如 果 出 现 了 特定 的 动作 ， 且 完全 知识 假设 成 立 ( 所 有 涉及 的 事件 均 已 明确 )， 则 带 有 失 
败 即 否 定 的 自 顶 向 下 的 证 明 过 程 可 以 用 来 证 明 哪 些 为 真 。 对 于 规划 问题 ，Agent 能 够 使 用 
WHE BE. 


14.2 个 体 与 关系 的 学 习 


在 个 体 和 关系 的 学 习 方 面 ， 其 中 关系 的 结构 对 于 预测 是 很 重要 的 。 第 7 章 讲述 的 学 习 
方法 均 假 设 特征 值 都 是 有 意义 的 ; 通过 使 用 特征 值 ， 可 以 预测 一 种 情况 的 一 些 有 用 信息 。 
然而 ， 当 样本 是 个 体 和 关系 时 ， 属 性 的 值 可 能 是 个 体 的 无 意义 的 名 字 。 只 有 通过 考虑 名 称 
所 指 的 个 体 的 属性 及 该 个 体 与 其 他 个 体 的 关系 ，Agent 才能 做 出 有 意义 的 预测 。 学 习 到 的 
知识 可 以 应 用 到 未 出 现在 训练 集中 的 个 体 上 。 

由 于 这 项 工作 的 很 大 部 分 已 在 逻辑 编程 的 环境 下 完成 ， 因 此 通常 称 之 为 归纳 逻辑 编程 
(inductive logic programming) 。 


KB 14-12] 假设 一 个 交易 Agent 有 如 下 关于 人 们 喜欢 的 度假 胜地 的 数据 集 ， 数 据 条 
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目 用 个 体 - 属 性 - 值 Cindividual-property-value) 三 元 组 的 形式 表示 : 


likes resort_14 


joe dislikes resort_35 


resort_14 type resort 
resort_14 near beach_18 
beach_18 type beach 
beach_18 covered_in Ws 

Ws type sand 


ws color white 





该 Agent 想 知道 Joe 喜欢 什么 。 此 时 ， 重 要 的 不 是 likes 属性 的 值 一 一 这 个 值 只 是 一 
个 没有 意义 的 名 称 一 一 而 是 个 体 通 过 该 名 称 所 指 的 属性 。 除 能 了 解 到 Joe 喜欢 resort_14 不 
喜欢 resort_35 之 外 ， 基 于 特征 的 表示 不 能 在 这 个 数据 集 上 做 任何 事情 。 

可 以 猜测 ，Agent 应 该 学 习 的 是 Joe 喜欢 靠近 海边 沙滩 的 旅游 胜地 。 这 个 猜测 可 以 表 
示 为 一 个 逻辑 程序 : 

prop (joe, likes,R)<- 

prop(R,type,resort) 人 
prop(R,near,B) A 
prop(B,type, beach) A 
prop(B,covered_in, S) 人 
prop(S, type. sand) 

逻辑 程序 提供 了 表示 关于 个 体 和 关系 的 确切 猜测 的 能 力 。 这 个 规则 可 以 应 用 于 Joe 没 
有 去 过 的 旅游 胜地 和 海滨 。 4 

归纳 逻辑 编程 学 习 器 的 输入 内 容 如 下 : 

。 原子 集合 A， 其 定义 了 Agent 的 学 习 内 容 ; 

。 E+ 是 A 元 素 的 基 实 例 的 集合 ， 称 为 正 类 样本 (positive example), (HAH: 

。 E 是 A 元素 的 基 实 例 的 集合 ， 称 为 负 类 样本 (negative example) ， 值 为 假 ; 

。 B 是 背景 知识 (background knowledge)， 是 定义 了 能 用 于 逻辑 程序 学 习 结果 的 关 

系 的 子 句 集合 ; 
。 五 是 一 个 可 能 假设 空间 。 互 经常 隐 式 地 表示 为 一 个 算 子 的 集合 ， 该 算 子 可 生成 可 
能 的 假设 。 我 们 假定 每 一 个 假设 都 是 一 个 逻辑 程序 。 

KG) 14-13〗 在 例 14-12 中 ， 假 设 Agent 想 学 习 Joe 喜欢 什么 。 此 时 的 输入 是 : 

。 A=(prop(joe, likes, R)}. 

。 Et 二 {prop(joe，likes，resort_14)，…})。 对 于 接 下 来 的 例子 ,我们 假设 有 很 多 

Joe 喜欢 的 类 似 项 目 。 

。 E` =(prop(joe, likes, resort_35), **}. HIER, 这 里 用 正 类 格式 来 写 ; 它们 的 

观察 值 为 假 。 

。 B={prop(resort_14, types resort), prop(resort_14, near, beach_18), =}. 

这 个 集合 包含 了 所 有 不 在 A 中 的 关于 环境 的 事实 。Agent 不 学 习 这 些 内 容 。 
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。 及 是 一 个 定义 了 prop (joe，likes，R) 的 逻辑 程序 的 集合 。 子 句 的 头 部 与 prop 
(joe，likes，R) 一 致 。 集 合 五 太 大 而 不 能 够 枚 举 出 来 。 

以 上 除了 互 之 外 ， 都 在 问题 的 说 明 中 明确 给 出 。 < 

现在 的 目标 是 找到 一 个 最 简单 的 假设 AE 互 满足 : 

BANAFE* B. 

BAh JE- 
也 就 是 说 ， 假 设 蕴 含 着 正 证 据 且 不 蕴含 负 证 据 。 假 设 必须 与 负 证 据 为 假 相 容 (consistent)。 

因此 ， 我 们 希望 找到 变 体 空间 中 的 一 个 元 素 。 这 类 似 于 渊 因 的 定义 ， 在 那里 湖 因 知识 
库 对 应 于 背景 知识 。 归 纳 逻 辑 编程 的 假设 空间 是 逻辑 程序 的 集合 。 第 二 个 条 件 对 应 于 相 
容 性 。 

本 节 的 其 余部 分 假设 我 们 想 要 学 习 的 是 一 个 单 目标 的 元 关系 的 定义 ， 用 谓词 符号 t 


来 表示 ， 即 4 一 {CX ，…，X,)}。 关 系 的 假设 空间 由 可 以 使 用 逻辑 程序 给 出 的 所 有 定义 
形式 组 成 。 
归纳 逻辑 编程 中 主要 使 用 下 面 两 个 策略 : 


。 第 一 个 策略 是 从 最 简单 的 假设 开始 ， 然 后 逐渐 变 得 复杂 以 适应 数据 。 因 为 逻辑 程 
序 仅 规定 了 正 类 事实 ， 所 以 最 简单 的 假设 是 最 一 般 的 假设 ， 仅 简单 表明 
t( 义 !，…，X,) 总 为 真 。 这 个 假设 蕴含 了 正 类 样本 ,但 它 也 蕴含 了 负 类 样本 (如 果 
有 的 话 ) 。 该 策略 包含 了 从 一 般 到 具体 的 搜索 。 它 试图 在 假设 空间 中 通过 从 最 简单 
的 假设 到 更 加 复杂 的 假设 的 搜索 找到 一 个 适应 数据 的 最 简单 的 假设 ; 搜索 的 假设 
总 是 蕴含 正 类 样本 ， 且 该 搜索 直到 找到 一 个 不 蕴含 负 类 样本 的 假设 时 才 停 止 。 

。 第 二 个 策略 是 从 一 个 适合 数据 的 假设 开始 ， 然 后 在 保证 仍然 适合 数据 的 情况 下 不 
断 简化 。 适 合 数 据 的 假设 是 正 类 样本 的 集合 。 这 一 策略 包含 了 从 具体 到 一 般 的 搜 
R: 从 最 具体 的 假设 开始 一 一 该 假设 中 仅 有 正 类 样本 为 真 ， 然 后 推广 子 句 ， 避 免 
涵盖 负 类 样本 。 

我 们 将 在 从 一 般 到 具体 的 搜索 中 扩展 限定 子 句 。 初 始 假 设 包 含 了 一 个 子 句 : 

lX so Xa) A} 

具体 化 算 子 (specialization operator) 观 察 子 句 集合 G 并 返回 具体 化 G 之 后 的 子 句 集合 

S。 具 体 化 表示 为 SFG 。 

以 下 是 三 个 原始 的 具体 化 算 子 : 

。 在 条 件 c 下 拆 分 G 中 的 一 个 子 句 。 集 合 G 中 的 子 句 a<-b 被 两 个 子 句 代替 : ab A 
c Habi 7c. 

。 根据 出 现在 < 或 4 中 的 变量 X HAG 中 的 子 句 a<-b5。 子 句 a<-b 被 以 下 子 句 代替 : 
abi XSh 





a<—bA X=4 
其 中 4 是 项 。 

。 删除 证 明正 类 样本 非 必需 的 子 句 。 

最 后 一 个 操作 改变 了 子 句 集 的 预言 。 那 些 不 再 被 子 句 集合 蕴含 的 情况 为 假 。 

这 些 原始 的 具体 化 算 子 结合 使 用 ， 形 成 了 H 中 的 算 子 。 集 合 HH 中 的 算 子 设计 为 原始 
具体 化 算 子 的 组 合 ， 因 此 可 以 使 用 贪 焚 (greedy) 前 上 胆 的 方法 来 评估 搜索 的 进展 。 也 就 是 
说 ， 对 算 子 进行 了 定义 ， 从 而 使 得 一 步 即 可 评估 搜索 的 进展 情况 。 

前 两 个 原始 的 具体 化 操作 应 该 明智 而 谨慎 地 执行 ， 以 确保 发 现 最 简单 的 假设 。Agent 
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只 在 拆 分 操作 能 取得 进展 的 情况 下 才 执 行 拆 分 操作 。 拆 分 操作 只 在 与 子 句 删除 操作 结合 使 
用 时 才 有 用 。 例 如 ， 向 子 句 添加 一 个 原子 相当 于 根据 该 原子 进行 拆 分 操作 ， 然 后 删除 含有 
否定 该 原子 的 子 句 。 更 高 层次 的 具体 化 算 子 可 能 为 一 些 出 现在 子 句 中 的 变量 X 根据 原子 
prop (XX，type，T 了 ) 执 行 拆 分 操作 ， 根据 值 了 进行 拆 分 ， 然后 删除 对 于 蕴含 正 类 样本 来 说 
不 必要 的 子 句 。 这 个 算 子 在 确定 有 用 的 类 型 方面 做 出 改进 。 
图 14-1 给 出 了 一 个 用 于 逻辑 程序 自 顶 向 下 归纳 的 局 部 搜索 (local search) 算 法 。 该 算 
法 维护 了 一 个 假设 ， 并 反复 改进 它 直到 找到 一 个 适合 数据 的 假设 (或 者 直到 无 法 找到 一 个 
这 样 的 假设 ) 才 停止 。 609 


: procedure TDInductiveLogicProgram(t, B, E*, E`, R) 


1 

2 Inputs 

3 tı 一 个 原子 ， 其 定义 为 学 习 目 标 
4; B: 背景 知识 ， 是 一 个 逻辑 程序 
5: E>: 正 类 样本 

6 ED; 负 类 样本 

7 R: 具体 化 算 子 集合 

8: Output 

9: 将 E 分 类 为 正 、E” 分 类 为 负 的 逻辑 程序 ， 当 找 不 到 上 述 逻 辑 程序 时 输出 上 
10; Local 

11; AEF MMR 

12; H=—{i(X,. s X,)<-} 


13; while 存在 eEE 满足 BUH Ke do 
l4: 让 存在 rE R WAL BUr( HD E* then 








15, 选择 rE R Wi BUrC HED EE* 
16: H<r(H) 

17; else 

18: return | 

19; return H 





图 14-1 逻辑 程序 的 自 上 项 向 归纳 


在 每 一 个 时 间 步 ,算法 都 在 每 一 个 假设 都 蕴含 了 正 类 样本 的 约束 下 选择 一 个 算 子 。 该 
算法 掩盖 了 两 个 重要 的 细节 : 

。 需要 考虑 哪些 算 子 。 

。 最 终 选择 哪个 算 子 。 

这 些 算 子 应 处 在 一 定 的 水 平 ， 以 便 可 以 根据 是 否 向 找到 一 个 好 的 假设 方向 取得 进展 来 
评价 它们 。 与 决策 树 学 习 中 的 方式 类 似 ， 该 算法 可 以 执行 当前 最 优 的 选择 。 也 就 是 说 ， 它 
在 使 得 误差 最 小 的 算 子 中 选择 使 得 进展 最 大 的 那个 算 子 。 假 设 的 误差 可 以 是 该 假设 所 蕴含 
的 负 类 样本 的 数量 。 

【 例 14-14] 考虑 例 14-12。 在 这 个 例子 中 ，Agent 必须 学 习 Joe 喜欢 什么 、 不 喜欢 什么 。 

第 一 个 假设 是 Joe 喜欢 所 有 的 事情 : 

{ prop( joe, likes, R)<—} 

该 假设 与 负 类 证 据 不 相 容 。 

可 以 根据 包含 了 Joe 喜欢 的 个 体 的 属性 来 拆 分 该 假设 。 为 取得 进展 ( 即 在 蕴含 了 所 有 
正 类 样本 的 前 提 下 包含 了 更 少 的 负 类 样本 ) 的 具体 化 方法 是 把 变量 R 包含 在 具体 化 结果 中 ， 
因此 ， 必 须 考虑 R 在 三 元 组 中 作为 主语 或 宾语 的 那些 三 元 组 。 610 

。 可 以 考虑 在 属性 type 上 进行 拆 分 ， 根据 type 的 取 值 进行 拆 分 ， 并 只 保留 那些 为 证 明正 

类 样本 所 需要 的 内 容 。 最 后 得 到 下 面 的 子 句 (假设 正 类 样本 只 包括 旅游 胜地 resort): 


611 
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{propljoe,likes, R)<-prop(R,tiype,resort)} 
如 果 正 类 样本 包含 除 resort 之 外 的 其 他 东西 (Joe 也 喜欢 这 些 东 西 ) ， 则 也 可 有 
其 他 子 句 。 如 果 负 类 样本 包含 了 非 旅游 胜地 的 内 容 ， 则 这 个 拆 分 将 有 助 于 减少 
RE. 
。 也 可 以 考虑 根据 有 助 于 证 明正 类 样本 的 其 他 属性 进行 拆 分 ， 例 如 如 果 所 有 的 正 类 
都 在 某 物 附近 ， 根 据 near( 接 近 ) 属 性 进行 拆 分 可 得 
{propljoe, likes, R)<— prop(R,near, B) } 
如 果 有 一 些 负 类 样本 不 在 任何 事物 附近 ， 则 这 个 具体 化 将 有 助 于 减少 误差 。 
然后 可 以 在 这 些 拆 分 操作 中 选择 使 进展 最 大 者 。 在 下 一 步 ， 可 以 增加 另 一 子 句 、R 的 
其 他 属性 或 B 的 其 他 属性 。 < 


14.3 概率 关系 模型 


第 6 章 中 的 信念 网 络 概率 模型 是 依据 特征 定义 的 。 许 多 领域 依据 个 体 和 关系 有 了 最 好 
的 模型 。Agent 常常 必须 在 它们 知道 领域 中 有 哪些 个 体 之 前 一 一 从 而 也 在 它们 知道 存在 哪 
些 随 机 变量 之 前 一 一 建立 概率 模型 。 在 学 习 到 上 述 概率 之 后 ， 这 些 概率 常常 不 依赖 于 个 
体 。 尽 管 学 习 某 一 个 体 是 可 能 的 ， 但 Agent 必须 同时 学 习 一 般 的 知识 ， 从 而 ， 在 Agent 发 
现 新 的 个 体 时 能 够 运用 这 些 知识 。 

【 例 14-15) 考虑 一 个 智能 教学 系统 诊断 学 生 的 算术 错误 问题 。 通 过 观察 学 生 在 几 个 
练习 题 上 的 表现 ， 教 师 应 努力 确定 学 生 是 和 否 理 解 了 学 习 内 容 ， 如 果 没 有 理解 ， 则 应 找 出 学 
生 哪 里 做 错 了 ， 从 而 能 够 采用 适当 的 补救 措施 。 

考虑 诊断 两 位 数 加 法 算式 的 情况 : 

十 Yı 0 
Zz Z Zo 

给 了 学 生 各 个 z 的 值 和 各 个 y 的 值 ， 要 求学 生 给 出 各 个 = 的 值 。 

学 生 的 答案 依赖 于 他 们 是 否 知道 基本 的 加 法 
(Knows_Add), 以 及 他 们 是 否 知道 如 何 进 位 (Knows_ 
Carry)。 这 个 例子 的 信念 网 络 如 图 14-2 所 示 。 第 i 位 的 
进位 ， 用 变量 C; 表示 ， 依 赖 于 z 的 值 、y 的 值 、 前 一 位 
数字 的 进位 ， 及 学 生 是 否 知 道 如 何 进位 。 对 于 第 i 位 的 z 
值 ， 表 示 为 变量 Z, WRF xz 的 值 、y 的 值 、 第 i 位 上 的 
进位 ， 及 学 生 是 否 知道 基本 的 加 法 。 

通过 观察 问题 中 之 的 值 和 yy 的 值 ， 以 及 学 生 给 出 的 > 
的 值 ， 可 以 推断 出 学 生 知道 基本 的 加 法 及 如 何 进 位 的 后 验 概率 。 信 念 网 络 模型 的 特征 之 一 
是 允许 学 生 做 出 随机 的 错误 ; 即使 他 们 知道 算法 ， 也 仍 可 能 得 到 错误 的 答案 。 

使 用 这 种 表示 方式 的 问题 在 于 不 够 灵活 。 一 个 灵活 的 表示 方式 会 适应 多 位 数字 的 加 
法 、 多 类 的 问题 、 多 个 学 生 及 多 次 时 间 。 多 位 数字 要 求 网 络 根据 数字 位 数 进行 复制 。 多 次 
时 间 要 求 对 学 生 的 知识 及 答案 如 何 随 着 时 间 而 改变 进行 建 模 ， 即 使 上 述 问 题 并 不 随时 间 而 
改变 。 

如 果 条 件 概率 被 储存 为 表格 ， 则 这 些 表格 的 规模 将 是 巨大 的 。 例 如 ， 如 果 每 一 个 变量 
X, 、Y MZ, 的 域 大 小 均 为 11( 数 字 0 一 9 或 空白 blank)，C; 和 Knows_Add 变量 为 二 进 





图 14-2 ”两 位 数 加 法 的 信念 网 络 


第 14 章 关系 规划 、 学 习 和 概率 推理 107 


制 ， 则 下 式 的 表格 形式 

P(Z,|X,.¥:,C,,Knows_Add) 
的 大 小 将 会 超过 4000。 除 使 用 表格 表示 外 ， 还 有 许多 表示 条 件 概 率 的 结构 。 下 面 要 介绍 的 
结构 不 仅 可 以 适用 于 关系 概率 模型 ， 而 且 可 以 适用 于 条 件 概率 的 压缩 描述 。 < 

概率 关系 模型 (Probabilistic Relational Model, PRM) at 3% 2A W £ # BW (relational 
probability model) 是 一 种 在 关系 上 明确 了 概率 值 ， 且 概率 独立 于 实际 个 体 的 一 种 模型 。 不 
同 的 个 体 共 享 概率 参数 。 

参数 化 随机 变量 (parametrized random variable) 或 者 是 一 个 逻辑 原子 ， 或 者 是 一 个 项 。 
也 就 是 说 ， 它 的 形式 是 pln. 4), Ae 为 逻辑 变量 或 者 为 常量 。 参 数 化 随机 变量 
之 所 以 被 称 为 参数 化 的 ， 是 因为 出 现在 其 中 的 逻辑 变量 。 将 参数 化 随机 变量 中 的 逻辑 变量 
蔡 换 为 常量 就 可 得 到 参数 化 随机 变量 的 基 实 例 。 参 数 化 随机 变量 的 基 实 例 对 应 于 随机 变 
E. WR p 是 一 个 谓词 符号 ， 则 该 随机 变量 是 一 个 布尔 变量 。 如 果 p 是 一 个 函数 符号 ， 则 
该 随机 变量 的 值 域 为 p 的 取 值 范围 。 

我 们 这 里 使 用 的 符号 体例 为 : 逻辑 变量 用 大 写字 母 表示 ; 随机 变量 对 应 于 基 原 子 和 基 
项 ， 因 此 在 本 节 使 用 小 写字 母 表示 。 

【 例 14-16〗 对 于 前 面 例 子 的 多 位 数字 算术 问题 的 PRM， 都 有 一 个 独立 的 变量 x 对 应 
于 其 中 的 每 一 位 数字 D 和 每 一 个 问题 PP， 该 参数 化 随机 变量 表示 为 z-(D，P)。 例如 ， 


ZX(1，prob17) 是 一 个 随机 变量 ， 它 表示 了 问题 17 的 第 一 位 z 的 值 。 类 似 地 ， 有 一 个 参数 ， 


化 随机 变量 yD, PRR TAA P 和 每 一 位 数字 DD 的 随机 变量 。 

每 一 个 学 生 S 的 每 一 时 间 了 对 应 有 一 个 变量 ,该 变量 表示 了 S 在 时 间 了 是 否 知 道 如 
何 做 加 法 。 参 数 化 随机 变量 knows_add(S, DRZE SENET BRAMMER. 
如 果 fred 在 3 月 23 日 知道 如 何 做 加 法 ， 则 随机 变量 knows_add( fred, mar23) HA. Æ 
似 地 ， 还 有 一 个 参数 化 随机 变量 knows_carry(S, T). 

对 于 每 一 位 数字 、 每 一 个 问题 、 每 一 个 学 生 、 每 一 个 时 间 ， 都 有 不 同 的 = 值 和 不 同 的 
进位 。 这 些 值 表示 为 参数 化 随机 变量 z(D, P, S, T)filcarry(D, P, S, T). Ak, M 
机 变量 z(1，prob17，fred，mar23) 表 示 了 fred 在 3 月 23 日 为 问题 17 计算 出 的 第 一 位 数 


字 的 值 。 函 数 x 的 值 域 为 (0，…，9，blank}， 因 此 上 述 随 机 变量 的 取 值 范围 均 为 此 集合 。 
< 


一 个 平板 模型 (plate model) 的 组 成 如 下 : 

。 一 个 有 向 图 ， 其 中 的 节点 表示 参数 化 随机 变量 。 

。 每 一 个 逻辑 变量 有 一 个 种 群 。 

。 每 一 节点 的 条 件 概率 由 其 父 节点 给 出 。 

平板 模型 意味 着 对 应 信念 网 络 的 具体 化 ， 即 信念 网 络 中 的 节点 都 是 参数 化 随机 变量 的 
基 实 例 ( 每 一 个 逻辑 变量 均 由 对 应 种 群 中 的 一 个 个 体 所 替代 )。 信 念 网 络 中 的 条 件 概率 对 应 
于 平板 模型 的 实例 。 

CB 14-17) 图 7-17 给 出 了 一 个 层次 贝 叶 斯 模型 ， 其 中 (图 7-17a) 是 一 个 平板 模型 ， 
图 7-17b 是 该 模型 的 一 个 实例 。 图 中 左边 的 平板 表示 有 4 个 参数 化 随机 变量 : sX, H), 
HCH), a Fa X 的 种 群 为 全 体 患者 的 集合 。 互 的 种 群 为 全 体 医院 的 集合 。 该 网 络 的 实 
例 列 在 图 的 右边 。 每 一 个 医院 及 对 应 于 一 个 单独 的 随机 变量 $Ch); 每 一 个 病人 xz 和 医院 刀 
对 应 于 单独 的 随机 变量 ; Cr, hh)。 对 每 一 个 s(x，h) 给 定 了 对 应 的 $8(h) 的 条 件 概率 ; 对 每 
一 个 $8(h) 给 定 了 al 和 a 的 条 件 概率 ; 同时 给 出 了 wm 和 w 的 先 验 概率 。 实 例 中 的 每 一 个 
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sCz，/) 变 量 都 有 相同 的 由 父 节点 规定 的 条 件 概 率 。 对 于 不 同 的 病人 zi Mz, BET HC) 
的 变量 s(x1，h) 和 和 s(x,，h) 是 相互 独立 的 。 对 于 不 同 的 医院 hh Ah, BRET w Mle 时 
的 变量 s(x, hh) 和 变量 SCZ2， 有 ) 是 独立 的 。 < 

【 例 14-181 fi) 14-16 的 带 参数 化 随机 
变量 的 平板 模型 如 图 14-3 pas. FER A 
形 对 应 于 平板 。 对 于 标记 为 D、P 的 平板 ， 
每 一 个 变量 都 有 对 应 于 每 一 位 数字 D 和 每 
TAP 的 实例 。 从 某 个 角度 来 看 ， 这 些 实 
例 来 自 于 历史 记录 ， 就 像 堆 积 的 一 操 盘 子 
一 样 。 类 似 地 ， 对 于 标记 为 S、T 的 平板 ， 
对 于 每 一 个 学 生 S 和 每 一 个 时 间 工 ， 都 有 
一 个 变量 的 副本 。 对 于 两 平板 重合 区 域 的 
变量 ， 对 于 每 一 个 数字 D、 每 一 个 人 PP、 每 一 个 学 生 S 和 每 一 个 时 间 工 ， 都 对 应 有 一 个 随 
机 变量 。 请 注意 ， 这 里 的 表示 是 宛 余 的 ; 平板 提供 的 信息 与 明确 的 参数 提供 的 信息 是 相同 
Ws c 的 参数 一 定 是 D、P、S 和 工 ， 因 为 它们 是 含有 c 的 平板 。 

平板 表示 方式 表示 了 与 信念 网 络 相同 的 独立 性 ; 给 定 了 父 节 点 ， 每 个 节点 都 独立 于 其 
非 子 孙 节 点 。 在 这 种 情况 下 ， 网 络 图 就 描述 了 平板 的 基础 。 因 此 ， 对 于 特定 的 de 
dom(D), pEdom(P), sEdom(S)RtEdom(T), zld, ps s, OH—-PRBPAH rld, 
p), yd, p), c(d, p, s, OM knows_add(s, OMBUPLBER,. EERE PHS Mt hi 
机 变量 c(D，P，S，T) 上 有 一 个 循环 ， 因 为 对 于 相同 的 问题 、 学 生 和 时 间 ， 一 位 数 的 进 
位 也 依赖 于 前 一 位 数 的 进位 。 类 似 地 ， 在 某 一 时 间 学 生 是 否 知 道 如 何 进位 依赖 于 他 们 之 前 
是 否 知道 如 何 进 位 。 然 而 ， 条 件 概率 表 使 得 基础 网 络 是 无 环 的 。 

给 定 了 父 节点 ， 每 个 参数 化 随机 变量 都 有 一 个 条 件 概率 。 这 个 条 件 概 率 在 它 的 基础 实 
例 中 是 共享 的 。 < 

不 幸 的 是 ， 当 相同 关系 下 的 不 同 实例 中 产生 相互 依赖 关系 时 ， 仅 靠 平板 表示 是 不 够 
的 。 在 之 前 的 例子 中 ，c(D，P，S，T) 部 分 依赖 于 c(D 一 1，P，S，T)， 即 部 分 依赖 于 前 
一 位 数字 的 进位 (对 于 第 1 位 数字 来 说 还 有 其 他 的 情况 ) 。 另 一 个 更 复杂 的 例子 是 确定 两 个 
作者 是 否 是 合作 者 的 概率 ， 确 定 的 依据 是 他 们 是 否 共同 写 过 一 篇 文章 。 为 了 表示 这 类 情 
况 ， 能 够 明确 逻辑 变量 间 的 交互 是 有 用 的 ， 正 如 在 逻辑 程序 中 做 的 那样 。 

一 种 综合 了 信念 网 络 、 平 板 和 逻辑 程序 思想 的 表示 是 独立 选择 逻辑 (Independent 
Choice Logic, ICL). ICL 由 一 组 独立 选择 、 为 各 个 选择 指定 结果 的 逻辑 程序 及 在 选择 上 
的 概率 分 布 组 成 。 更 具体 的 ，ICL 的 定义 如 下 : 

抉择 (alternative) 是 原子 的 集合 ， 这 些 原 子 共 享 相同 的 逻辑 变量 。 选 择 空间 (choice 
space) 是 抉择 的 集合 ， 其 中 抉择 中 的 原子 互 不 合 一 。ICL 理论 包含 : 

。 一 个 选择 空间 C。 设 C “为 抉择 的 基 实 例 集合 。 因 此 ，C 是 基 原 子 集合 的 集合 。 

。 一 个 无 环 逻 辑 程序 ( 它 可 以 包含 和 否定 即 失 败 推理 )， 其 中 ,， 子 句 的 头 部 与 选择 空间 

中 的 抉择 的 元 素 不 合 一 。 

。 在 每 一 个 抉择 上 的 概率 分 布 。 

逻辑 程序 和 选择 空间 中 的 原子 可 以 包括 常数 、 变 量 和 函数 符号 。 

选择 器 函数 (selector function) 从 C' 的 每 一 个 抉择 中 选择 一 个 元 素 。 对 于 每 一 个 选择 
器 函数 存在 一 个 可 能 世界 (possible world). 。 逻 辑 程序 明确 了 在 每 一 个 可 能 世界 中 哪些 为 
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真 。 在 一 个 可 能 世界 中 ， 原 子 g 为 真 ， 如 果 它 是 由 选择 器 函数 选 出 并 加 入 逻辑 程序 的 原 
子 之 一 。 命 题 g 的 概率 通过 在 可 能 空间 集合 上 的 一 个 度量 给 出 ， 其 中 各 抉择 的 不 同 基础 
实例 中 的 原子 是 概率 独立 的 。 一 个 抉择 的 实例 共享 相同 的 概率 ， 且 不 同 实例 的 概率 
HME. 

逻辑 程序 的 无 环 性 意味 着 对 于 涉及 证 明 任 一 个 g 的 原子 ， 仅 存在 有 限 个 抉择 。 因 此 ， 
尽管 对 于 任意 的 g 可 能 有 无 限 多 的 可 能 世界 ， 概 率 度量 仍 可 在 可 能 世界 集合 上 定义 ， 而 这 
些 可 能 世界 可 通过 有 限 的 抉择 来 描述 。 这 些 世 界 的 描述 可 通过 下 面 的 方式 找 出 来 : 使 原子 
在 抉择 中 可 假定 ， 借 助 不 同 的 原子 在 相同 的 抉择 中 产生 不 一 致 ， 并 使 用 滴 因 推理 来 发 现在 
使 g 为 真 的 世界 集合 的 描述 。 

ICL 理论 可 被 看 做 一 个 因果 模型 ， 在 该 模型 中 ， 因 果 机 制 使 用 逻辑 程序 表示 ， 而 背景 
变量 一 一 对 应 于 各 个 抉择 一 一 则 在 各 抉择 上 分 配 独 立 的 概率 数 。 可 能 有 人 认为 ， 这 种 只 有 
无 条 件 独立 的 原子 和 确定 的 逻辑 程序 的 逻辑 在 表达 需要 的 知识 类 别 上 显得 能 力 太 弱 。 然 
而 ， 即 使 不 用 逻辑 变量 ， 独 立 选 择 逻 辑 也 能 表示 出 信念 网 络 所 能 表示 的 所 有 概念 。 

【 例 14-19] 考虑 使 用 独立 选择 逻辑 表示 例 6-10 中 的 信念 网 络 。 这 个 技术 适用 于 任何 
信念 网 络 。 

火 情 和 干扰 没有 父 节 点 ， 因 此 ， 它 们 可 以 被 直接 表示 成 抉择 : 

{ fire, no fire} 

{tampering ,notampering } 

在 第 一 个 抉择 上 的 概率 分 布 为 P(fire)= 二 0.01，P(nofire) 二 0.99。 类 似 的 ，P (tam- 
pering)=0. 02, P(notampering) =0. 89, 

Smoke 和 Fire 间 的 依赖 关系 可 使 用 两 个 抉择 来 表示 : 

{smokeWhenFire,nosmoke WhenFire} 

{smokeWhenNoFire,nosmoke WhenNoFire} 

其 中 ，P(smokeWhenFire) 二 0.9，P(smokeWhenNoFire) 二 0.01。 可 用 两 个 规则 来 说 
明 什 么 时 候 有 和 烟 : 

smoke<— fire N smokeWhenFire 

smoke<—~ fire A smokeWhenNoFire 

为 表示 Alarm 如 何 依赖 于 Fire 和 Tampering ， 可 用 如 下 4 个 抉择 : 

{alarmWhenTamperingFire,noalarmWhenTamperingFire)} 

{alarmWhenNoTamperingFire,noalarmWhenNoTampering Fire} 

{alarmWhenTam pering NoFire,noalarmWhenTam pering NoFire} 

{alarm WhenNoTampering NoFire,noalarmWhenNoTampering NoFire} 

Herp, P (alarmWhenTamperingFire) = 0.5, P CalarmWhenNoTamperingFire) = 
0. 99， 类 似 地 ， 其 他 原子 也 使 用 例 6-10 中 的 概率 。 同 样 还 有 明确 alarm 何 时 为 真 的 规则 
(alarm 何 时 为 真 依赖 于 干扰 和 火 情 ): 

alarm<—tampering A fire \ alarmWhenTampering Fire 

alarm<-~ tampering A fire \ alarmWhenNoTampering Fire 

alarm<-tampering N ~ fire N alarmWhenTampering NoFire 

alarm<«-~ tampering N ~ fire \ alarmWhenNoTampering NoFire 

FL fb BLE SRT AKW, TEAS BY BO PT RPE eo. 

条 件 概率 的 ICL 表示 可 以 被 看 做 决策 树 规则 的 形式 ， 其 中 概率 在 叶子 节点 上 确定 。 每 
一 个 分 支 都 对 应 一 个 规则 和 一 个 抉择 。 当 涉及 非 二 进 制 的 变量 时 ， 非 二 路 的 抉择 就 很 
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有 用 。 
在 表示 标准 的 信念 网 络 时 ， 独 立 选择 逻辑 可 能 不 是 非常 直观 ， 但 它 可 以 使 复杂 的 关系 
模型 变 得 简单 ， 如 下 面 的 例子 所 示 。 
【 例 14-20] 考虑 例 14-16 中 多 位 数 加 法 的 参数 化 版 本 。 平 板 对 应 于 逻辑 变量 。 
z(D，P，S,， T) 的 取 值 有 三 种 情况 。 第 一 种 情况 是 学 生 在 这 个 时 间 知 道 加 法 运算 ， 
并 且 回 答 没 有 错误 。 此 时 ， 他 们 得 到 了 正确 的 答案 : 
z(D,P,S, TV)<— 
æ(D,P,Vz) À 
y(D,P,Vy) A 
carry(D,P,S,T.Vc) A 
knowsAddition(S,T) A 
~mistake(D,P,S,T) A 
V is(Vx-+Vy + Ve) div 10 
在 这 里 ， 原 子 xD，P，S，T，V) 用 来 表示 参数 化 随机 变量 z(D, P, S, TRH 
V。 这 是 一 个 标准 的 逻辑 规则 ， 也 与 限定 子 句 的 含义 相同 。 
这 里 有 一 种 针对 学 生 是 否 在 上 述 情况 下 碰巧 犯 了 错误 的 抉择 ; 
Y PV SY T(noMistake(D,P,S,T) ,mistake(D,P,S,T)} 
Sith, mistake(D, P, S, T) A RARER A 0.05, BIB BEAL FE ANE in fa AR 
情况 下 仍然 有 5% 的 概率 做 错 。 
第 二 种 情况 是 学 生 在 这 个 时 间 知 道 加 法 运算 但 却 犯 了 错误 。 此 时 ， 我 们 假设 学 生 在 每 
位 数字 上 犯错 的 可 能 性 是 相同 的 : 
z(D,P,S,T.V)< 
knowsAddition(S.T) A 
mistake(D,P,S,T) A 
selectDig(D,P,S,T,V) 
这 里 有 一 个 抉择 指明 学 生 选 取 了 哪个 数字 ， 
V PYSY T(selectDig(D,.P.S,T,V)|VE{0..9}} 
对 于 每 一 个 w， 假 设 selectDig(D，P，S，T，vw) 的 概率 为 0. 1 。 


最 后 一 种 情况 为 学 生 不 知道 如 何 做 加 法 。 此 时 ， 学 生 随 机 地 选择 一 个 数字 : 
z(D,P,.S,T)=V=+ 

~knowsAddition(S,T) A 

selectDig(D,P.S,T)=V 


这 三 种 规则 覆盖 了 z 的 所 有 规则 ; 它 比 用 表格 表示 所 需要 的 、 大 于 4000 条 数据 的 表 
格 要 简单 得 多 ， 并 且 它 适用 于 任意 位 数字 、 任 意 问题 、 任 意 学 生 和 任意 的 时 间 。 不 同 的 数 
字 和 问题 为 zxCD， 已 ) 赋 予 不 同 的 值 ， 且 对 于 不 同 的 学 生 和 时 间 有 不 同 的 值 来 表示 他 们 是 
否 知道 加 法 运算 。 

对 于 进位 的 规则 是 类 似 的， 其 主要 的 不 同 在 于 规则 体 中 的 进位 依赖 于 前 一 数字 。 

在 任意 时 间 ， 学 生 是 否 知道 加 法 运算 依赖 于 他 们 在 前 一 时 间 是 否 知道 加 法 运算 。 根 据 
推测 ， 学 生 的 知识 还 依赖 于 发 生 了 哪些 动作 (学 生 和 老师 做 过 什么 ) 。 因 为 ICL Ship br HE 
辑 程序 ( 带 有 “噪声 ”)， 所 以 在 本 章 开 始 介绍 的 表示 方法 均 可 用 来 表示 模型 的 变化 。 “i 

前 面 章 节 用 过 的 AILog 也 实现 了 ICL. 


14.4 本 章 小 结 
。 当 Agent 要 求 在 它 知道 将 会 遇 到 什么 个 体 之 前 给 出 或 学 习 模 型 时 ， 就 会 用 到 关系 表示 。 
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， 许多 之 前 章节 出 现 过 的 表示 方式 可 以 转换 成 关系 的 形式 。 

。 在 情景 演算 中 ， 根 据 Agent 的 动作 ， 使 用 init 常量 和 do 函数 来 表示 时 间 。 

。 事件 演算 允许 有 连续 和 离散 的 时 间 ， 并 公理 化 事件 发 生 后 的 后 续 事 情 。 

。 归纳 逻辑 编程 可 以 用 来 学 习 关 系 模型 ， 即 使 特征 的 值 是 无 意义 的 名 字 也 可 以 。 
。 独立 选择 逻辑 允许 在 个 体 被 认 知 之 前 详细 说 明 概 率 模型 。 


.14.5 参考 文献 及 进一步 阅读 


情景 演算 由 McCarthy 和 Hayes[1969] 提 出 。 这 里 提出 的 框架 公理 的 形式 可 以 追溯 到 Kowalski 
[1979], Schubert[1990] Æ Reiter[ 1991]。ReirerL2001] 对 情景 演算 做 了 一 个 全 面 的 总 结 ; Brachman 和 
Levesque[2004] 也 做 了 这 个 工作 。 关 于 如 何 解 决 框架 问题 ， 即 简明 扼要 地 阐述 在 执行 一 个 动作 的 过 程 中 
那些 不 变 的 内 容 ， 研 究 者 还 提出 了 许多 其 他 的 建议 。 事 件 演算 由 Kowalski 和 Sergot[L1986] 提 出 Shanah- 
an[1997] 为 表示 改变 所 涉及 的 问题 和 特定 的 框架 问题 做 了 一 个 极 好 的 介绍 。 

归纳 逻辑 编程 的 概述 可 以 参见 Muggleton 和 DeRaedt[1994]、Muggleton[1995] 及 Quinlan 和 Cameron- 
Jones[ 1995]. 

独立 选择 逻辑 由 Poole[1993，1997] 提 出 。De Raedt, Frasconi, Kersting 和 Muggleton[2008] 及 
Getoor 和 Taskar[2007] 的 论文 概述 了 概率 关系 模型 及 如 何 学 习 这 个 模型 。 


关系 、 归 属 及 存在 的 不 确定 性 


在 14.3 节 介绍 的 模型 关注 的 是 关系 的 不 确定 性 ， 即 有 关 一 些 个 体 间 的 关系 是 否 为 真 的 不 确定 性 。 例 
如 ， 我 们 可 以 设计 一 个 Likes(XX， 了) 的 概率 模型 ， 其 中 X 天 Y， 它 为 不 同 的 人 相互 喜欢 建立 了 模型 。 这 可 
能 依赖 于 X 和 YY 的 外 部 特征 。 我 们 也 可 以 为 Friends(X，X) 设 计 一 个 概率 模型 ， 它 为 某 个 人 是 否 喜欢 自 
己 建 立 了 模型 。 这 可 能 依赖 于 该 人 的 内 部 特征 。 这 样 的 模型 对 于 辅导 系统 确定 两 个 人 是 否 应 该 在 一 起 工 
作 ， 或 者 确定 导致 学 生 犯 错误 的 原因 是 材料 的 难度 还 是 学 生 的 个 性 ， 是 很 有 用 的 。 

给 定 个 体 sam 和 chris, RA ERM SH Sam 和 Chris 是 不 同 的 人 时 我 们 才能 使 用 概率 模型 
likes(sam，chris)。 归 属 不 确定 性 (identity uncertainty) 问题 关注 的 是 两 个 项 是 否 指示 的 是 同一 个 体 的 不 
确定 性 。 这 对 于 医疗 系统 是 一 个 问题 ， 在 该 系统 中 ， 确 定 正 在 与 该 系统 交互 的 人 是 否 就 是 昨天 已 经 访问 
过 的 那个 人 是 很 重要 的 。 如 果 病 人 本 就 不 愿 沟通 或 者 想 欺 骗 该 系统 (比如 想得到 毒品 )， 则 识别 这 个 问题 
就 尤为 困难 。 在 医学 界 ， 该 问题 就 是 记录 关联 (record linkage) 问 题 ， 其 目标 是 确定 哪些 医疗 记录 是 同一 
个 人 的 。 

在 上 面 的 例子 中 ， 已 知 个 体 是 存在 的 ; 给 定名 字 Chris Sam 就 是 说 假定 他 们 存在 。 给 定 一 个 描述 ， 
确定 是 否 存在 一 个 个 体 符 合 该 描述 的 问题 就 是 存在 不 确定 性 (existence uncertainty) 问题 。 存 在 不 确定 性 
之 所 以 成 为 一 个 问题 是 因为 可 能 不 存在 一 个 符合 该 描述 的 个 体 ， 或 者 有 多 个 个 体 符合 该 描述 。 我 们 不 能 
给 一 个 不 存在 的 个 体 赋予 属性 ， 因 为 不 存在 的 个 体 根本 就 没有 属性 。 如 果 我 们 想 给 一 个 存在 的 个 体 指定 
一 个 名 字 ， 则 我 们 需要 关心 的 是 我 们 指 的 是 哪个 个 体 ( 如 果 存 在 多 个 个 体 )。 存 在 不 确定 性 的 一 个 特例 是 
数量 不 确定 性 (number uncertainty)， 即 存在 的 个 体 数量 不 确定 。 例 如 ， 一 个 采购 Agent 可 能 无 法 确定 对 
参加 旅游 团 感 兴趣 的 人 数 ， 而 旅游 团 能 否 成 行 取 决 于 对 此 感 兴趣 的 人 的 数量 。 

如 果 涉 及 复杂 的 角色 ， 且 问题 是 确定 是 否 有 个 体 适合 这 些 角色 ， 则 关于 存在 不 确定 性 的 推理 会 非常 
RF. FARU Agent 它 必须 为 Sam 和 她 的 儿子 Chris 找到 一 个 公寓 。Sam 是 否 喜 欢 一 个 公寓 
的 概率 部 分 依赖 于 她 的 房间 的 大 小 和 Chris 的 房间 的 颜色 。 然 而 ,个 人 的 公 帘 并 不 会 标记 Sam 的 房间 和 
Chris 的 房间 ， 且 可 能 并 不 存在 他 们 所 希望 的 房间 。 给 定 一 个 Sam 希望 的 公寓 情况 模型 ， 如 何在 观察 上 
平衡 条 件 仍然 是 不 明确 的 。 


14.6 习题 
14.1 给 情景 演算 的 例子 (可 从 本 书 网 站 上 得 到 ) 添 加 为 一 个 物体 涂 颜料 的 能 力 。 特 别 地 ， 添 加 谓词 
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14.2 


color( Obj ,Col, Sit) 
如 果 物 体 Obj 在 情景 Si 时 的 颜色 为 Col 则 该 谓词 为 真 。 

包 训 的 颜色 一 开始 是 蓝 色 。 因 此 ， 我 们 有 一 个 公理 ， 

color( parcel ,blue,init) 

有 一 个 动作 paint(Obj，Col) 可 把 物体 Obj HRM Col 颜色 。 对 于 这 个 问题 ， 假 设 物 体 仅 可 被 涂 
为 红色 ,上 且 仅 在 物体 和 机 器 人 均 位 于 位 置 o109 时 才能 够 涂 色 。 颜 色 在 机 器 人 上 有 积累 效果 ( 没 办 
法 把 颜色 从 一 个 物体 上 去 除 ， 即 如 果 你 把 包 囊 涂 成 红色 ， 则 包 误 既是 红色 又 是 落 色 当然 ， 这 
在 现实 中 是 不 存在 的 ， 但 这 样 做 可 使 问题 得 到 简化 ) 。 

使 用 情景 演算 公理 化 谓词 color 和 动作 paint 。 

你 可 以 使 用 不 超过 三 个 子 名 做 到 这 一 点 (包括 前 面 提 到 的 定义 了 初始 情景 颜色 的 子 句 )， 其 中 
任 一 个 子 句 的 主体 中 都 不 超过 两 个 原子 符号 。 你 不 需要 相等 、 不 等 或 否定 即 失败 推理 。 请 在 
AILog 中 测试 。 


你 得 到 的 输出 应 该 大 致 如 下 ， 

ailog: bound 12. 

ailog: ask color(parcel,red,S). 

Answer: color(parcel,red, do(paint(parcel,red), 

do(move(rob,storage,o109), 
do(pickup(rob, parcel) , 
do(move(rob,0109,storage) , 
init))))) 


在 这 个 问题 中 ， 你 将 添加 一 个 比 前 一 习题 中 更 加 复杂 的 涂 颜色 的 动作 。 
假设 对 象 paint_can(Color) AR — KAM EA Color 的 颜料 。 
添加 一 个 动作 pain4(Ob}，Color)， 它 可 将 物体 的 颜色 涂 成 Color 色 ( 与 前 一 个 习题 不 同 ， 此 时 

物体 仅 有 一 个 颜色 ) 。 涂 颜色 的 动作 只 有 在 物体 位 于 o109、 自 主 Agent 也 位 于 0109 A HE at — i 

合适 颜色 的 颜料 时 才能 进行 。 

AILog 执行 深度 有 限 搜索 。 你 可 能 已 注意 到 求解 前 面 的 问题 时 比较 慢 ， 因 此 我 们 要 求 一 个 深度 限 

制 (该 限制 的 深度 接近 于 实际 的 深度 ) 以 使 问题 的 求解 时 间 限 制 在 合理 的 范围 之 内 。 

在 此 ， 估 算 下 面 的 查询 需要 多 长 时 间 的 选 代 加 深 搜索 才能 找到 一 个 解 : 

ask sitting_at(parcel,lab2,S) 

(不 要 刻意 去 尝试 一 一 它 的 运行 时 间 非 常 长 。) 

(a) 估计 能 找到 一 个 规划 的 最 小 的 限制 。( 提 示 : 解决 这 个 问题 需要 多 少 步 ? 这 些 步 数 与 需要 的 深 
度 限制 有 何 关系 ?) 证 明 你 的 估计 。 

(b) 估算 搜索 树 的 分 支 因子 。 为 做 到 这 一 点 ， 你 应 该 考察 完成 第 & 十 1 层 搜 索 的 时 间 ， 并 对 比 完成 
第 上层 搜索 的 时 间 。 你 既 需 要 通过 实验 验证 你 的 答案 (通过 运行 程序 )， 也 需要 通过 理论 分 析 
证 明 它 (通过 考察 分 支 因 子 的 大 小 ) 。 你 不 必 运 行 需要 大 量 时 间 的 例子 来 求解 这 个 问题 。 

(c) 根据 你 给 出 的 前 两 问 的 答案 ， 及 你 在 一 些小 的 限定 下 运行 程序 时 的 发 现 ， 佑 计 搜 索 完 搜索 树 
需要 的 时 间 ， 其 中 搜索 深度 比 发 现 一 个 解 所 必需 的 深度 小 1。 证 明 你 的 答案 。 

在 这 个 问题 中 ， 你 将 考察 为 机 器 人 传送 问题 使 用 事件 演算 。 

(a) 使 用 事件 演算 表示 动作 move. 

(b) 使 用 事件 演算 表示 例 14-10 中 的 每 一 个 动作 序列 。 

Co) 说 明 事 件 演 算 可 从 (b) 部 分 给 出 的 动作 序列 中 导出 合适 的 目标 。 

假设 在 事件 演算 中 有 两 个 动作 Open 和 Ciose， 及 在 时 间 0 时 的 值 为 假 的 初始 关系 opened。 动 作 

Open 使 opened 关系 变 成 真 ， 动 作 Close 使 opened 关系 变 成 假 。 假 设 动作 Open 发 生 在 时 间 5， 动 

作 Close 发 生 在 时 间 10。 

Ca) 使 用 事件 演算 表示 该 问题 。 

(b) KK opened 在 时 间 3 为 真 吗 ?给 出 推导 过 程 。 

(c) 关系 opened 在 时 间 7 为 真 吗 ? 给 出 推导 过 程 。 
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(d) KH opened 在 时 间 13 为 真 吗 ? 给 出 推导 过 程 。 

(e) 关系 opened 在 时 间 5 AAG? 请 解释 。 

C) 关系 opened 在 时 间 10 HAY? 请 解释 。 

(g) 给 出 holds 的 可 选 公 理化 表示 ，holds 在 时 间 5 和 时 间 10 有 不 同 的 行为 。 

Ch) 说 明 其 中 的 一 个 公理 化 比 男 一 个 好 。 

举 出 一 些 具 体 的 可 用 于 自 顶 向 下 归纳 逻辑 编程 的 具体 化 算 子 。 定 义 这 些 算 子 ， 从 而 可 评价 算 子 的 
进展 。 请 解释 在 什么 情况 下 这 些 算 子 会 取得 进展 。 

对 于 例 14-20 中 加 法 的 表示 ， 之 前 假设 = 的 观察 值 均 为 数字 。 请 改变 表示 方式 ， 从 而 使 得 观察 值 
可 以 为 数字 、 空 白 或 其 他 。 请 给 出 合适 的 概率 。 

使 用 ICL 表示 前 面 章节 的 电气 领域 问题 ， 使 得 表示 可 以 在 AILog 中 运行 。 这 个 表示 应 包括 例 6-11 
中 的 概率 依赖 和 例 12-11 中 的 关系 。 
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计算 是 我 们 现代 洞穴 的 火种 。 到 2056 年 ， 计 算 革 命 带 来 的 社会 转化 将 被 认为 和 工业 
革命 带 来 的 转化 一 样 显著 。 计 算 的 演化 和 广泛 传播 所 带 来 的 后 果 将 对 社会 经 济 学 、 科 学 和 
文化 产生 重大 的 影响 。 





Eric Horvitz[ 2006] 


本 章 对 前 面 所 讨论 的 内 容 作 一 个 宏观 的 评论 。 通 过 将 众多 的 表示 方案 置 于 我 们 先前 介 
绍 的 设计 空间 中 ， 各 种 表示 之 间 的 关系 就 变 得 明朗 了 。 这 样 做 使 得 我 们 能 够 理解 人 工 智能 
研究 的 现状 及 其 演化 。 我 们 也 将 讨论 由 于 智能 计算 Agent 的 发 展 和 应 用 所 带 来 的 一 些 社会 
与 道德 后 果 。 正 如 Horvitz 在 引言 中 所 指出 的 那样 ， 计 算 正在 改变 世界 ; 我 们 必须 意识 到 
它 的 正面 与 负面 影响 。 


15.1 复杂 性 维度 回顾 


人 工 智能 研究 的 进展 如 何 ? 目前 的 前 沿 问题 是 什么 ? 为 了 系统 地 讨论 这 些 宏观 问题 ， 我 
们 利用 1. 5 节 所 介绍 的 人 工 智 能 系统 的 设计 空间 来 说 明 。 在 1. 5 节 中 ， 我们 介绍 了 横 跨 部 分 
设计 空间 的 9 个 维度 。 本 节 说 明 如 何 将 本 书 中 介绍 的 一 些 表示 方法 置 于 设计 空间 之 中 。 

图 15-1 回顾 了 复杂 性 的 维度 ， 它 是 在 图 1-6 的 基础 上 扩展 而 来 的 ， 增 加 了 一 个 键 属性 
( 取 值 为 多 个 * 号 ， 在 后 续 的 图 中 会 用 到 ) 。 
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根据 各 个 维度 的 值 ， 图 15-2 对 本 书 中 介绍 的 一 些 表示 方法 进行 了 分 类 。 
规 结 偏 学 员 
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图 15-2 依据 复杂 性 的 维度 列 出 的 一 些 表 示 方 法 


第 3 章 介绍 的 状态 空间 搜索 除了 允许 不 定期 的 规划 外 ， 其 他 维度 均 取 最 简单 的 值 。 利 
用 基于 特征 的 表示 法 或 者 STRIP 表示 法 ， 回 归 规 划 扩 展 了 状态 空间 搜索 ， 以 便 进行 基于 
特征 的 推理 。 约 束 满足 问题 (CSP) 规 划 的 效率 更 高 ， 但 代价 是 只 能 进行 有 限期 的 规划 。 

基于 实用 性 原则 ， 决 策 网 络 具 有 下 列 特性 : 基于 特征 的 表示 、 随 机 的 结果 、 部 分 可 观 
察 和 复杂 的 偏好 。 然 而 ， 和 约束 满足 问题 规划 一 样 ， 决 策 网 络 只 能 进行 有 限期 的 规划 . 

马尔 可 夫 决 策 过 程 (MDP) 虽 然 允许 不 定期 或 无 限期 的 规划 、 随 机 的 结果 和 复杂 的 偏 
好 ,但 采用 的 却 是 假定 状态 是 完全 可 观察 的 基于 状态 的 表示 法 。 部 分 可 观察 马尔 可 夫 决 策 
过 程 (POMDP) 人 允许 存在 一 个 部 分 可 观察 的 状态 ， 但 求解 更 为 困难 。 动 态 决 策 网 络 扩展 了 
马尔 可 夫 决 策 过 程 ， 以 允许 基于 特征 的 表示 法 表示 状态 。 动 态 决 策 网络 也 扩展 了 决策 网 
络 ， 以 允许 不 定期 或 无 限期 的 规划 ， 但 无 法 处 理 部 分 可 观察 状态 的 情形 。 

多 Agent 决策 网 络 扩展 了 决策 网 络 ， 以 允许 存在 多 个 Agent。 策 略 改 进 算 法 允许 多 个 
Agent 进 行 学 习 ， 但 只 允许 单个 状态 和 规划 水 平 为 1( 重 复 单 步 游戏 ); 唯一 的 不 确定 性 在 于 其 
他 Agent 的 行为 。 可 以 将 策略 改进 算法 看 成 是 基于 单个 状态 和 多 Agent 的 增强 学 习 算法 。 

增强 学 习 扩展 了 马尔 可 夫 决 策 过 程 ， 以 允许 学 习 。11. 3. 9 节 讨 论 了 基于 特征 的 增强 学 习 。 

情景 演算 和 事件 演算 允许 存在 个 体 和 关系 的 表示 以 及 不 定期 的 规划 ,但 不 能 表示 不 确 
定性 。 

独立 选择 逻辑 是 一 种 关系 的 表示 法 ， 它 能 表示 行为 结果 的 不 确定 性 、 感 知 的 不 确定 性 
和 效用 ; 然而 ， 在 这 个 最 一 般 的 框架 中 ， 推 理 并 不 高 效 。 

构建 一 个 Agent 最 困难 的 维度 是 感知 的 不 确定 性 。 多 数 的 表示 方法 通过 激活 Agent 的 
历史 功能 ( 仅 对 有 限期 规划 有 效 ) 来 处 理 感知 的 不 确定 性 。 在 部 分 可 观察 马尔 可 夫 决 策 过 程 
中 ， 讨 论 了 如 何 扩展 基于 感知 不 确定 性 和 不 定期 及 无 限期 问题 的 规划 ， 但 其 中 建议 的 解决 
方法 依赖 于 显 式 的 状态 。 如 何 处 理 各 种 形式 的 感知 问题 ， 是 目前 人 工 智 能 研究 最 为 活路 的 
领域 之 一 。 

在 图 15-2 中 ， 没 有 一 种 方法 处 理 了 层次 分 解 问 题 。 有 关 层 次 规划 和 层次 增强 学 习 的 
大 部 分 工作 本 书 并 未 涉及 。 
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有 限 理性 是 许多 在 实践 中 获得 应 用 的 逼近 方法 的 基础 ; 然而 ， 在 思考 与 行动 之 间 做 出 明 
确 的 折 中 (Agent 是 否 立即 行动 ， 还 是 进一步 的 思考 ) 的 研究 ， 相 对 来 讲 还 是 比较 少见 的 。 

可 以 看 出 ， 我 们 只 是 介绍 了 人 工 智能 设计 空间 中 的 极 小 一 部 分 内 容 。 目 前 的 研究 前 沿 
已 经 还 远 超出 了 本 书 所 涵盖 的 内 容 。 在 人 工 智 能 的 各 个 领域 都 存在 许多 活路 的 研究 课题 。 
已 经 而 且 将 继续 在 以 下 各 个 方面 获得 引 人 瞩 目的 进展 : 规划 、 学 习 、 感 知 器 、 自 然 语言 理 
解 、 机 器 人 以 及 其 他 一 些 子 领域 。 从 复杂 性 维度 来 看 ， 许 多 方面 的 内 容 是 非常 深奥 的 ， 但 
依然 只 是 占据 了 人 工 智 能 设计 空间 的 一 小 部 分 。 

传统 上 ， 在 关系 推理 (通常 基于 一 阶 逻辑 或 框架 ) 和 不 确定 性 推理 (通常 基于 概率 ) 之 间 
存在 一 个 鸿沟 。 虽 然 目前 正在 填 平 该 鸿沟 ， 但 在 一 些 会 议和 研究 论文 中 依然 可 见 其 踪影 。 

将 人 工 智能 研究 分 解 为 多 个 子 领域 并 不 令 人 奇怪 。 人 工 智能 的 设计 空间 太 大 了 ， 以 致 无 
法 同时 进行 研究 。 一 旦 某 个 研究 者 决定 处 理 ， 比 如 说 ， 关 系 领 域 的 问题 并 推导 对 象 是 否 存 
在 ， 则 增加 传感器 的 不 确定 性 是 困难 的 。 如 果 某 个 研究 者 开始 进行 无 限期 的 规划 学 习 ， 则 增 
加 特征 或 层次 推理 是 困难 的 ， 更 不 用 说 基于 无 限期 规划 、 关 系 和 层次 的 组 合 的 学 习 了 。 

在 设计 空间 中 ， 有 一 些 特殊 的 研究 点 在 过 去 的 几 年 里 属于 前 沿 研究 问题 : 

。 Agent 同时 在 多 个 抽象 层 进行 学 习 的 增强 学 习 ; 

。 多 Agent 增强 学 习 ; 

。 关系 概率 学 习 ; 

。 考虑 歧义 、 上 下 文 和 请 用 的 自然 语言 理解 ; 

。 能 穿 过 不 确定 环境 的 机 器 人 小 车 ; 

。 考虑 嗜 杂 传 感 环境 (如 : 学 生 情 绪 ) 的 智能 教学 系统 。 

我 们 仍然 不 知道 如 何 构建 这 种 关系 学 习 Agent: 针对 无 限期 的 规划 和 存在 多 个 Agent 
的 部 分 可 观察 域 。 对 这 个 问题 存在 一 定 的 争议 ， 有 些 研 究 者 认为 或 许可 以 通过 层次 近似 推 
理 达 到 该 目标 。 因 此 ， 虽 然 我 们 还 不 能 构建 具有 人 类 水 平 的 智能 Agent， 但 似乎 拥有 研制 
这 样 一 个 Agent 的 “积木 块 ”。 主 要 挑战 是 如 何 处 理 现实 世界 的 复杂 性 。 然 而 ， 至 今 似乎 不 
存在 构建 具有 人 类 水 平 的 计算 Agent 的 内 在 障碍 。 


15.2 社会 与 道德 后 果 


随 着 人 工 智 能 科技 的 发 展 ， 出 现 了 越 来 越 多 的 智能 器 件 ， 它 们 的 广泛 应 用 会 对 人 类 社 
会 及 我 们 的 星球 产生 深刻 的 道德 、 心 理 、 社 会 、 经 济 和 法 律 影响 。 这 里 仅 概略 地 说 明 其 中 
的 部 分 问题 。 从 某 种 意义 上 来 说 ， 人 工 自治 Agent 简化 了 下 一 阶段 的 技术 发 展 ， 这 是 关于 
技术 开发 应 用 的 影响 的 普遍 看 法 ; 然而 ， 从 另 一 个 方面 来 讲 ， 它 们 导致 了 严重 的 不 连续 
性 。 自 治 Agent 独立 地 进行 感知 、 决 策 和 行动 。 这 在 我 们 的 技术 和 技术 图 景 中 是 一 个 巨大 
的 质变 。 这 种 发 展 增加 了 Agent 挣脱 我 们 的 控制 进行 不 可 预知 行为 的 可 能 性 。 和 任意 的 颠 
覆 性 技术 一 样 ， 可 能 存在 大 量 的 正面 和 负面 结果 一 一 对 于 有 些 结果 ， 我 们 将 难以 评判 其 好 
坏 ; 我 们 也 将 不 能 简单 地 预见 某 些 结果 。 

为 阐述 方便 ， 现 以 大 家 均 熟 知 的 自治 车 辆 作为 例子 进行 说 明 。 实 验 性 自治 车 辆 已 经 从 最 
初 的 形式 发 展 到 机 器 人 坦克 、 货 物 搬运 车 和 自动 化 战争 机 器 人 。 从 某 种 意义 上 讲 ， 机 器 人 战 
争 可 能 存在 显著 的 优点 ， 但 同时 又 是 非常 危险 的 。 幸 运 的 是 ， 辟 梦 仅 出 现在 科幻 小 说 中 。 

Thrun[2006] 对 于 这 种 车 辆 持 乐观 态度 。 拥 有 智能 车 辆 的 正面 影响 将 是 巨大 的 。 考 虑 
利用 公路 进行 潜在 的 生态 保护 ， 与 直接 对 农田 进行 铺路 相 比 ， 这 种 方法 更 高 效 。 在 安全 方 
面 ， 智 能 车 辆 减少 了 每 年 发 生 在 路 上 的 伤亡 事故 : 据 估 计 ， 全 世界 每 年 死 于 交通 事故 的 人 
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数 达 120 万 人 ， 受 伤 的 人 数 超过 5000 万 。 智 能 汽车 在 十 字 路 口 能 够 进行 通信 和 协商 。 除 
了 减少 交通 事故 ， 道 路 的 通行 量 可 达到 原来 的 3 倍 。 老 人 和 残障 人 士 可 以 自己 独立 地 穿行 
道路 。 人 们 可 以 自主 地 调度 汽车 进 车 库 ， 然 后 又 召回 它们 。 这 将 真正 实现 自治 汽车 的 停车 
自动 化 ， 而 不 是 使 用 地 面 停车 场 。 在 这 方面 获得 成 功 的 正面 影响 是 鼓舞 人 心 的 。 对 于 自治 
车 辆 发 展 的 后 果 ， 存 在 两 种 截然 不 同 但 却 一 致 的 情形 : 必须 考虑 其 中 的 道德 后 果 。 科 幻 小 
说 将 很 快 地 变 成 科学 事实 。 

无 论 是 作为 一 门 科学 ， 还 是 作为 一 门 工程 学 科 ( 技 术 及 其 应 用 )， 人 工 智 能 现在 都 是 发 展 
成 熟 的 。 它 为 我 们 星球 的 环境 施加 正面 影响 的 机 会 是 很 多 的 。 人 工 智能 研究 人 员 和 开发 工程 
师 具 备 独 特 的 视角 和 技能 ;这 些 视角 和 技能 对 于 在 实践 中 处 理 全 球 变 暖 、 贫 穷 、 粮 食 生 产 、 
军备 控制 、 健 康 、 教 育 、 人 口 老 龄 化 和 人 口 统计 等 问题 是 必需 的 。 作 为 一 个 简单 的 例子 ， 我 
们 可 以 改善 人 工 智 能 学 习 的 访问 工具 ， 以 便 增 强人 们 利用 人 工 智 能 技术 解决 问题 的 能 力 ， 而 
非 依赖 专家 构造 不 透明 的 系统 。 正 如 机 器 人 世界 杯 足球 锦标 赛 (RoboCup) 所 获得 的 成 功 那 样 ， 
基于 人 工 智能 系统 的 游戏 和 竞赛 能 非常 有 效 地 进行 学 习 、 教 学 和 环境 研究 。 

我 们 已 经 探讨 了 智能 汽车 和 智能 交通 控制 对 于 环境 方面 的 一 些 影响 。 其 他 方面 的 例子 
如 下 : 已 经 在 频谱 分 配 和 物流 方面 获得 应 用 的 组 合拍 卖 技术 ， 可 进一步 应 用 于 提供 碳 补偿 
和 优化 能 源 供给 与 需求 ; 智能 节能 控制 器 (使 用 分 布 式 传感器 和 激励 器 ， 可 提高 建筑 物 内 
部 能 源 利用 率 ) 的 进一步 研究 ， 可 以 利用 定性 建 模 技术 对 天 气 状 况 进行 模拟 。 基 于 限制 的 
系统 的 思想 可 用 于 分 析 可 持续 发 展 系 统 。 如 果 一 个 系统 与 它 所 在 的 环境 是 平衡 的 ， 则 称 该 
系统 是 可 持续 发 展 的 。“ 平 衡 " 的 意思 是 系统 耗费 的 资源 及 其 产 出 不 仅 满足 短期 约束 ， 也 满 
EKHAR. 

许多 研究 者 开发 了 服务 于 残疾 人 和 老年 人 的 辅助 技术 。 辅 助 认 知 是 一 个 应 用 程序 ， 可 
以 辅助 感知 和 行动 ; 它 存在 的 形式 包括 智能 轮椅 、 老 年 人 伴 但 、 长 期 护理 设施 中 的 护士 助 
手 等 。 然 而 ，Sharkey[2008] 对 老年 人 和 小 孩 依 赖 机 器 人 助手 作为 伴侣 提出 了 危险 的 警告 。 
对 于 自治 车 辆 ， 研 究 人 员 必 须 切实 回答 关于 使 用 其 产品 的 相关 问题 。 

事实 上 ， 我们 能 信任 机 器 人 吗 ? 存在 一 些 现 实 的 理由 使 得 我 们 仍然 不 能 依赖 机 器 人 做 
正确 的 事情 。 基 于 现在 构建 机 器 人 的 方法 ， 它 们 并 非 是 完全 可 信赖 的 。 因 此 ， 它 们 能 做 正 
确 的 事情 吗 ? 它们 愿意 做 正确 的 事情 吗 ? 什么 是 正确 的 事情 ? 在 我 们 的 集体 潜意识 里 ， 存 
EEA: 机 器 人 将 最 终 完 全 自治 ， 具 有 自由 的 意志 、 智 能 和 意识 ， 并 可 能 反叛 我 
们 ， 成 为 毁灭 创造 者 自己 的 恶魔 。 

在 人 机 接口 中 ， 道 德 是 什么 样 的 ? 对 于 我 们 自己 和 机 器 人 ， 需 要 道德 编码 吗 ? 答案 看 
起 来 是 显然 的 。 许 多 研究 者 正在 研究 这 个 问题 。 事 实 上 ， 许 多 国家 已 经 认识 到 这 是 一 个 重 
要 的 有 争议 的 领域 。 已 经 存在 机 器 人 责任 与 保险 的 问题 ， 且 将 不 得 不 为 解决 机 器 人 问题 而 
进行 立法 。 机 器 人 设计 师 和 工程 师 也 需要 道德 的 专业 编码 ， 就 像 所 有 其 他 学 科 的 工程 师 需 
要 专业 编码 一 样 。 我 们 必须 将 下 述 这 些 问 题 进行 分 门 别 类 : 在 设计 、 建 造 和 部 署 机 器 人 的 
过 程 中 如 何 考虑 道德 问题 ? 当 机 器 人 发 展 到 更 为 自治 的 时 候 该 如 何 决策 ” 当 我 们 和 机 器 人 
进行 交互 的 时 候 ， 我 们 如 何 考虑 道德 问题 和 将 产生 什么 道德 问题 ? 我 们 应 该 赋予 机 器 人 什 
么 权利 ? 我 们 拥有 人 类 权利 代码 ， 但 存在 机 器 人 权利 代码 吗 ? 

我 们 将 上 述 问题 划分 为 三 个 基本 的 必须 回答 的 问题 。 首 先 ， 在 设计 、 建 造 和 部 署 机 器 
人 的 过 程 中 ， 我 们 人 类 如 何 考 虑 道德 问题 ? 第 二 ， 当 机 器 人 发 展 到 自治 和 意志 自由 的 时 
候 ， 它 应 该 怎样 符合 道德 伦理 地 进行 决策 ?第 三 ， 当 我 们 和 机 器 人 进行 交互 的 时 候 ， 将 产 
生 什 么 样 的 道德 问题 ? 
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对 于 这 些 问题 ， 我 们 应 考虑 科幻 小 说 家 Isaac Asimov[1950] 所 提出 的 一 些 令 人 感 兴趣 
的 建议 ， 虽 然 这 些 建 议 可 能 不 够 成 熟 。Isaac Asimov 是 思考 这 些 问题 的 早期 思想 家 之 一 。 
他 的 机 器 人 三 法 则 是 我 们 理解 问题 的 一 个 很 好 的 基础 ， 因 为 它们 看 起 来 符合 逻辑 且 简 明 扼 
要 。 最初 的 三 法 则 是 : 

D 机 器 人 不 得 伤害 人 类 ， 或 因 不 作为 使 人 类 受到 伤害 。 

2) 除非 违背 第 一 法 则 ， 机 器 人 必须 服从 人 类 的 命令 。 

3) 在 不 违背 第 一 及 第 二 法 则 的 前 担 下， 机 器 人 必须 保护 自己 。 

Asimov 对 前 面 提出 的 三 个 问题 的 回答 是 这 桩 的 : 首先 ， 每 个 机 器 人 都 必须 遵循 这 些 
法 则 ， 机 器 人 制造 商 必 须 依 法 确保 这 一 点 。 第 二 ， 机 器 人 应 该 始终 遵循 法 则 的 优先 次 序 。 
但 是 他 没有 对 第 三 个 问题 作出 更 多 的 说 明 。Asimov 的 观点 主要 源 于 人 类 意欲 机 器 人 做 什 
么 和 机 器 人 真正 做 了 什么 之 间 的 冲突 ; 或 者 是 对 于 上 述 法 则 的 字面 理解 和 合乎 情理 的 解释 
之 间 的 差异 (因为 并 没有 用 任何 形式 语言 将 上 述 法 则 编 成 法 典 )。Asimov 的 小 说 揭示 了 许 
多 存在 于 法 则 和 结果 之 间 的 隐 含 矛盾 。 

现在 有 许多 关于 机 器 人 道德 伦理 的 讨论 ， 但 大 多 数 都 预先 假定 我 们 目前 还 未 具备 相应 
的 技术 能 力 。 事 实 上 ，Bill Joy[2000] 由 于 太 担心 新 技术 所 带 来 的 危险 的 失控 ， 以 至 于 呼吁 
暂停 研究 机 器 人 技术 (和 人 工 智能 ) 、 纳 米 技术 和 基因 工程 。 本 书 对 设计 空间 作 了 条 理 分 明 
的 叙述 ， 阐 明了 包括 机 器 人 在 内 的 智能 Agent 的 设计 原理 。 我 们 希望 能 为 智能 Agent 的 社 
会 和 道德 编码 的 发 展 提供 一 个 富 含 技 术 的 框架 。 

然而 ， 机 器 人 技术 可 能 并 非 是 人 工 智能 中 最 具 影 响 的 技术 。 考 虑 在 环球 网 和 其 他 全 球 
性 计算 网 络 中 媒人 的 、 无 处 不 在 的 分 布 式 智 能 就 可 略 知 一 斑 。 人 类 和 人 工 智能 的 混合 将 演 
化 成 为 环球 智慧 。 全 球 性 网 络 对 发 现 和 传播 新 知识 的 方式 的 影响 已 经 可 以 比肩 印刷 机 的 发 
展 了 。 正 如 Marshall McLuhan 所 说 的 那样 :“ 我 们 先是 塑造 了 工具 ， 然 后 是 工具 塑造 了 我 
们 ”[McLuhan，1964]。 虽 然 他 说 这 和 句 话 的 时 候 更 多 的 是 针对 书籍 、 广 告 和 电视 而 言 ， 但 
对 于 全 球 性 的 网 络 和 自治 Agent， 它 也 是 适合 (甚至 是 更 适合 ) 的 。 我 们 已 经 构建 的 Agent 
的 类 型 和 我 们 决定 构建 的 Agent 的 类 型 ， 将 会 改变 我 们 自己 ， 并 同样 多 地 改变 我 们 所 处 的 
社会 ; 我们 必须 确保 它 向 好 的 方向 发 展 。Margaret SomervilleL2006] 是 一 个 伦理 学 家 ， 他 
声称 ， 随 着 以 一 个 不 断 加 速 的 速率 将 我 们 自身 的 能 力 固化 为 技术 ， 物 种 正在 从 知人 进化 为 
技术 人 。 许 多 旧 的 社会 和 道德 框架 正在 被 打破 ， 在 这 个 新 的 世界 中 无 立足 之 地 。 作 为 人 工 
智能 新 科技 的 创立 者 ， 我 们 应 该 重视 新 技术 所 带 来 的 后 果 ， 这 也 是 我 们 共同 的 责任 。 
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数学 基础 与 记号 





本 附录 介绍 人 工 智能 中 的 一 些 基 础 数学 概念 ， 这 些 概念 传统 上 是 在 其 他 课程 里 教授 
的 。 也 介绍 在 本 书 中 使 用 的 一 些 记 号 和 数据 结构 。 


A. 1 离散 数学 


我 们 所 依赖 的 数学 概念 包括 : 

集合 一 个 集合 (set) 包 含 元 素 ( 成 员 )。 如 果 s 是 集合 S 的 一 个 元 素 ， 则 记 为 ;SE S。 集 合 
中 的 元 素 规定 了 一 个 集合 ， 因 此 ， 如 果 两 个 集合 具有 相同 的 元 素 ， 则 它们 是 相等 的 集合 。 

元 组 ”ww 阶 元 组 是 有 序 的 nn 个 元 素 的 组 合 ， 记 为 (zy ，…，z)。2- 阶 元 组 是 一 个 对 ， 
3- 阶 元 组 是 3 个 元 素 的 有 序 组 合 。 如 果 两 个 六 阶 元 组 在 相同 位 置 上 的 元 素 相 同 ， 则 称 它 们 是 
相等 的 。 如 果 S 是 一 个 集合 ， 则 O 是 BCH an. oe, c ) 的 集合 ， 其 中 zx; 是 集合 S 的 元 
素 ; Si XS, XXS, 是 六 阶 元 组 (zi， esty z ) 的 集合 ， 其 中 Ti 是 集合 S; 的 元 素 。 

关系 ”关系 (relation) 是 nw- 阶 元 组 的 集合 。 关 系 中 的 元 组 称 为 关系 的 真 值 。 

函数 ”一 个 从 定义 域 (domain) 到 值 域 (range)R 的 函数 (function) 或 映射 (mapping) 
fe WHK f: DR， 是 DXR 的 一 个 子 集 ， 其 中 对 于 任意 的 dE DD， 存在 一 个 唯一 的 rER， 
fi<d, r>Efe MR<d, r>Ef, WEA fA) Sr. 

i, HE MARA RRA E, WRR RHA EARRA E, A E 
用 相应 的 常识 性 知识 来 加 以 理解 ， 并 检验 这 些 定义 。 


A.2 函数、 因子 和 数组 


本 书 中 的 许多 算法 处 理 函 数 的 表示 。 我 们 将 定义 在 集合 上 的 函数 扩充 到 定义 在 变量 集 
上 的 函数 。 因 子 (factor) 是 函数 的 一 种 表示 形式 。 数 组 (array) 是 函数 的 一 种 显 式 表示 ， 其 
个 体 元 素 可 以 被 修改 。 

WR S 是 一 个 集合 ， 则 A(S) 是 一 个 定义 域 为 5S 的 函数 。 因 此 ， 如 果 cES， 则 fz 
值 域 里 的 一 个 值 。fLSj 类 似 于 fCS)， 只 不 过 前 者 的 个 体 元 素 可 以 被 更 新 。 这 种 记号 基于 
C 语言 或 Java 语言 中 的 使 用 方式 (但 这 些 语言 仅 人 允许 S 是 长 度 为 n 的 整数 集合 {0，…，n 一 
1} 的 情形 )。 因 此 fLcj 是 值 域 里 的 一 个 值 。 如 果 fLcj 被 赋予 一 个 新 值 ， 则 它 将 返回 该 值 。 

这 种 记 法 可 以 扩展 到 (代数 ) 变 量 的 情形 。 如 果 X 是 一 个 定义 域 为 DD 的 代数 变量 ， 则 /(X) 
是 一 个 函数 ， 其 中 ， 给 定 一 个 -ED， 返 回 值 域 里 的 一 个 值 。 这 个 值 经 常 被 写成 X==x) 或 简单 
的 f(z)。 类 似 的 ，fLX] 是 基于 索引 X 的 数组 ， 即 X 的 函数 (元 素 可 以 被 修改 )。 

这 种 记 法 也 可 以 扩展 到 变量 集 的 情形 。 f(X1, Xz, es X,) 是 一 个 函数 ， 其 中 ， 给 定 
Xi 的 值 w 、Xs 的 值 vz 、…、X, 的 值 w， 返 回 值 域 里 的 一 个 值 。 注 意 ， 这 里 重要 的 是 变 
量 的 名 称 而 非 变量 的 位 置 。 应 用 于 特定 值 的 因子 记 为 X =u, X.=v2, +, X=). 
变量 Xi’ X2, s X, 的 集合 称 为 f 的 范围 (scope)。 数 组 LXi Xr. s X,] 是 X, 
Xas 0s Xa 的 函数 ， 其 中 的 值 可 以 被 更 新 。 

给 一 些 变量 赋值 得 到 一 个 新 的 函数 ， 它 是 其 余 变量 的 函数 。 例 如 , ARM, 
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Xss. Xa 的 函数 ， 则 f(X =u) E Xz ety X, 的 函数 ， 且 

GX: = u) Xe = ye Xa = w) 一 FOX = wX: = we X, = Hy) 

可 以 将 因子 与 其 他 任意 的 操作 算 子 在 元 素 级 别 上 做 相 加 、 相 乘 或 复合 . GA 和 f; 是 
AF, WAth 是 因子 (其 范围 是 fi 的 范围 和 户 的 范围 的 并 ) ， 定 义 为 

Chi + fod CM = vy Xa = m 909 Xe = m) 

= fi CX, = nX: = ote Xe = wm) + fo CX = Xe = yy Xe = Vy) 
其 中 假定 fi 和 f; 忽略 不 在 范围 之 内 的 变量 。 乘 法 和 其 他 二 元 操作 的 情形 与 此 类 似 。 

【 例 A-1) 假定 广 (X，Y) 王 XT7 Mf, D=Y+Z. W Atfh=X+2Y+Z, 为 
X, YY 和 2 的 函数 。 类 似 的 ，f1 X fo=(X+Y) X(Y+Z). 

fi (X=2)22 Y 的 函数 ,定义 为 2 十 Y。 

假定 变量 W 的 取 值 范围 是 (0，1} 和 X 的 取 值 范围 是 {1，2}， 则 因子 We XD 
义 为 如 下 的 一 个 表 : 





Ww 
0 
0 
1 
1 





fatfi RW. X MY Hee, Hd: 
Cfa + fi Cw =1,X =2,Y=3) =3+5=8 
AMAI, Cfa X FCW =1,X =2,Y =3) = 3X5 = 15 
因子 上 的 其 他 操作 的 定义 可 以 在 本 书 里 找到 。 < 


A.3 关系 和 关系 代数 


在 人 工 智能 和 数据 库 系 统 中 ， 关 系 的 概念 是 常见 的 。 关 系 代数 (Crelational algebra) 定 
义 了 关系 上 的 操作 ， 是 关系 数据 库 的 基础 。 

范围 (scope)S 是 变量 的 集合 。S 上 的 元 组 (tuple)t 对 于 每 个 S 中 的 变量 均 有 一 个 值 。 
元 组 上 在 变量 X 上 的 值 记 为 val (1:，X)， 该 值 必 须 在 变量 X 的 取 值 范围 之 内 。 这 和 元 组 的 
数学 记 法 类 似 ， 只 不 过 是 用 变量 而 不 是 整数 表示 索引 。 

关系 是 元 组 的 集合 ， 其 中 所 有 的 元 组 具有 相同 的 范围 。 人 们 经 常 为 关系 给 定 一 个 名 
称 。 元 组 的 范围 经 常 被 称 为 关系 的 模式 (scheme)。 关 系数 据 库 (relational database) 是 关系 
的 集合 。 关 系数 据 库 的 模式 是 关系 名 称 和 关系 模式 对 的 集合 。 

具有 范围 Xo o X, 的 关系 可 以 看 成 是 在 Xi ，…，X, 上 的 布尔 因子 ， 其 中 取 值 为 
真 的 元 素 用 元 组 表示 。 

一 个 关系 通常 被 表示 成 一 个 表 。 

【 例 A-2〗 下 面 是 一 个 用 表 描 述 的 关系 enrolled; 


fran 
billie 
jess 


fran 





jordan 
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标题 行 给 出 了 关系 的 模式 ， 即 {Course，Year，Student，Grade}; 其 余 的 每 一 行 均 表 
示 一 个 元 组 。 第 一 个 元 组 定义 为 vallti, Course) = cs322. val(t,;, Year) = 2008, 
val(t,, Student)= fran Ñ val(t,;, Grade)=77, 

列 的 顺序 和 行 的 顺序 是 无 关 紧 要 的 。 < 

若 -是 一 个 符合 模式 S 的 关系 ,，c 是 定义 在 S 中 的 变量 上 的 一 个 条 件 ,， r 中 的 选择 
Cselection) 是 r 中 满足 条 件 c 的 元 组 的 集合 ， 记 为 cc Cr) 。 选 择 具 有 和 了 相同 的 模式 。 

车 r 是 一 个 符合 模式 S WKAR, SSS, 7 在 Sn 上 的 投影 (projection) 是 范围 局 限于 So 
的 元 组 的 集合 ， 记 为 xs, Cr) 。 

【 例 A-3] 考虑 例 A-2 给 出 的 关系 enrolled: 

关系 Ocon (enrolled) 选 择 enrolled 中 成 绩 大 于 79 的 元 组 : 


billie 


fran 





jordan 
关系 Wi student Your) (enrolled) FE enrolled 中 指定 对 Student Fl Year 进行 投影 : 


fran 
billie 


jess 





jordan 


HEM. KH enrolled 中 的 第 一 个 元 组 和 第 四 个 元 组 是 怎样 在 投影 后 变 为 一 样 的 ; 它们 
在 {Student，Year} 上 表示 相同 的 函数 。 < 

如 果 两 个 关系 的 模式 相同 ， 则 关系 之 间 的 并 (union)、 交 (intersection) 和 差 (differ- 
ence) 定 义 为 元 组 集 上 的 相应 的 操作 。 

En 和 rs 是 两 个 关系 ， 则 它们 之 间 的 自然 连接 (join)( 记 为 n m7) 是 一 个 关系 ， 
KY. 

。 连接 的 模式 是 x, 的 模式 和 的 模式 的 并 ; 

。 一 个 元 组 属于 连接 ， 仅 当局 限于 ri 的 范围 的 元 组 属于 关系 r 和 局 限于 r 的 范围 

的 元 组 属于 关系 7;。 
[B A-4] SRK assisted; 





关系 enrolled Fl assisted WHEE GCN enrolled pqaassisted ) 为 


.424 MRA 数学 基础 与 记号 


fran 


77 i 


yuki 
billie 
jess 


billie 


jess 





jordan 


注意 ， 在 连接 中 ，cs444 的 信息 是 如 何 丢 失 的 : Course 为 cs444 的 元 组 中 不 存在 TA 
636] 的 取 值 。 
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application of substitution( 替 换 的 应 用 ) 506 
approximately correct( 近 似 正确 )，332 
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Arrow’s impossibility theorem ( 阿 罗 不 可 能 定 
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artificial intelligence( 人 工 智 能 )，3 
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ask-the-user( 询 问 用 户 ) ，175，576 
askable( 可 询问 的 )，175 
assertional knowledge base( 断 言 知 识 库 ) 568 
assignment space( 赋 值 空间 ) 118 
assumable( 假 说 )，187，200 
assumption-based truth maintenance system( 基 于 
假设 的 真 值 维持 系统 ) 207 
asymptotic complexity( 渐 进 复杂 度 ) 83 
asynchronous value iteration( 异 步 值 迭代 )，406 
ATMS( 基 于 假设 的 真 值 维持 系统 )，207 
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atomic clause( 原 子 子 句 ) 163, 496 
atomic proposition( 原 子 命题 )，158，163 
atomic symbol( 原 子 符号 ) 494 
attribute( 特 性 ) 552 
auction( 拍 卖 ) 448 
autonomous delivery robot( 自 治 传送 机 器 人 )，30 
average reward( 平 均 回报 ) 402 
axiom( 公 理 ) 160, 161, 501 
axiom schema( 公 理 模 式 ) 533 
axiomatizing( 公 理化 ) 161, 501 
axioms( 公 理 ) 
of probability( 概 率 )，224 
of rationality( 理 性 )，373 
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back-propagation learning( 反 疝 传播 学 习 ) ，317 

background knowledge( 缘 景 知识 )，17，607 

background variables( 背 景 变量 )，206 

backtracking( 回 滴 )，80，120 

backward induction( 逆 向 归纳 法 ) 430 

bagging(bagging AYE), 319 

base language( 基 语言 ) 580 

base level( 基 本 级 ) 580 

base-level algorithms( 基 准 算法 ) 319 

Basic Formal Ontology( 基 本 形式 化 本 体 ) 573 

Bayes’ rule( 贝 叶 斯 规则 ) ，229 

Bayesian classifier( 贝 叶 斯 分 类 器 ) 309 

Bayesian learning( 贝 叶 斯 学 习 )，334 

Bayesian network( 贝 叶 斯 网 络 )， 参 见 belief net- 
work 

Bayesian probability( 贝 叶 斯 概率 )，220 

beam search( 集 束 搜 索 )，141 


belief( 信 念 )，49 
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belief network( 信 念 网 络 )，235，236，458 
causality( 因 果 关 系 )，241 
inference problem (推理 问题 )，252 
belief state( 信 念 状态 )，48，61 
belief state transition function( 信 和 念 状态 转换 函 
数 )，49 
best response( 最 佳 响应 ) 436 
best-first search( 最 佳 优 先 搜 索 ) 88 
beta distribution( beta 分 布 ) 337 
BFO( 基 本 形式 化 本 体 )，573 
bias( E), 286, 321, 331 
bias-free( 无 偏 置 ) 331 
bidirectional search( 双 问 搜 索 )，101 
binary constraint( 二 元 约束 )，116 
binary feature( 二 元 特征 )，112 
biology( 生 物 学 )，6 
bit( 位 ) 231 
blame attribution problem( 责 任 归 属 问题 )，465 
body( 主 体 ) 44 
Agent(Agent), 45 
rule( $MM), 163, 496 
Boltzmann distribution My iR B 4} 4). 142, 473 
Boolean property( 布 尔 属性 )，553 
Boolean variable( 布 尔 变量 )，113，126，158 
boosting( boosting 算法 ) 320 
bottom-up proof procedure( 自 底 向 上 的 证 明 过 
程 )，167 
boundary of a process( 过 程 的 边界 ) 576 
boundary of an object( 对 象 的 边界 ) 575 
bounded rationality( 有 限 理 性 ) 26 
branch-and-bound( 分 支 定 界 ) 98 
branching factor( 分 支 因 子 )，77 
breadth-first search( 宽 度 优先 搜索 )，84 


C 


candidate elimination algorithm 《候选 删除 算 
法 )，329 

canonical representation( 标 准 表 示 )，534 

cardinal( 基 数 )，14 

cardinal preference( 基 数 偏好 )，25 

case analysis( 实 例 分 析 )，125 

case-based reasoning( 基 于 案例 的 推理 ) 324 

causal( 有 因果 联系 的 ) 48 
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causal link(A RRA). 364 
causal mechanism( Al ALi), 206 
causal model( 因 果 模 型 ) 204, 206 
causal network( 因 果 网 络 )，241 
causal rule( 因 果 规 则 )，353，601 
causal transduction( 因 果 转 换 ) ，48 
causality( 因 果 性 )，204，241 
central limit theorem( 中 心 极 限定 理 ) 223 
chain rule( 链 式 法 则 ) 227 
chance node( 机 会 节点 ) ，384 
characteristic function (H 1E MAO, 559 
children (F 4Ẹ), 142 
choice space( 选 择 空间 ) 615 
choose( 挑 选 ) 170 
Church-Turing thesis(Church-Turing 理论 )，7 
clarity principle( 明 晰 性 原则 )，114，241 
Clark normal form(Clark 范式 )，538 
Clark’s completion(Clark 完备 化 ) 194, 538 
class(24E), 298, 309, 451, 559, 568 
classification(4¢28), 284, 298 
classification tree(42E A), 298 
clause( fj), 126 
definite( MZ), 163, 494, 496 
Horn, 185 
closed list(closed #2), 94 
closed-world assumption (4 fa] {Ht} FRE), 193 
cluster(f®), 451 
clustering (382), 451 
cognitive science A MF), 10 
command(#§4), 45 
command function Gh AAA), 49 
command trace( 44 4h), 46 
commonsense reasoning ( #7 i HEHE), 13 
competitive( $e A), 424 
complements (4# $4), 381 
complete( 完 备 的 ) 131, 167 
bottom-up derivation( 自 底 向 上 推导 )，169 
complete knowledge assumption (完备 知识 假 
设 )，193 
completeness( 完 备 性 ) 
of preferences( 偏 好 )，373 
complex preference( 复 杂 偏 好 )，25 
complexity( 复 杂 度 )，83 
compositional measure of belief (信念 的 组 合 度 
量 )，226 
compound proposition( 复 合 命题 ) 158 


computational( 计 算 )，4 

computational learning theory (计算 学 习 理 论 )， 
332 

computational limits dimension (计算 限制 维度 )， 

. 26 

computational linguistics( 计算 语言 学 }，520 

concept( 概 念 )，572 

conceptualization( 概 念 化 ) 494, 563 

conditional effect( 有 条 件 的 影响 ) 355 

conditional( 条 件 的 ) 
expected value( 期 望 ) 231 

conditional probability( 条 和 件 概 率 ) 225 

conditional probability distribution (条 件 概 率 分 
布 )，227，297 

conditionally independent( 条 件 独 立 )，233 

Condorcet paradox(Condorcet 悖 论 ) 445 

conflict( 冲 罕 ) 132, 187 

conjunction( 合 取 )，158 

consequence set( 结 论 集 合 )，167 

consistency-based diagnosis( 基 于 一 致 性 的 诊断 )， 
187, 189 

consistent(### HY), 328, 358, 608 

constant( 常 量 ) 494 

constrained optimization problem( 有 约束 最 优化 问 
ml), 144 

constraint( 约 束 )，115 

constraint network( 约 束 网 络 )，121 

constraint optimization problem (约束 优化 问题 )， 
145 

constraint satisfaction problem (约束 满足 问题 )， 
117 

context-free grammar( 上 下 文 无 关 文 法 ) 521 

context-specific independence( 上 下 文 特定 的 独立 
性 )，250 

contingent attribute( 或 有 特性 ) 562 

continuant( 持 存 体 )，573 

continuous variable( 连 续 变 量 ) 113 

controller( 控 制 器 )，45，48，426 

cooperate( 协 作 ) ，444 

cooperative( 协 作 的 ) 424 

cooperative system( 协 作 系 统 ) 196 

coordinate( 协 调 (动词 ) ) 444 

coordination( 协 调 ( 名 词 ))，437 

cost( 代 价 )，76 

credit-assignment problem( 信 和 度 分 配 问 题 )，285 

cross validation( 交 叉 验 证 )，324，325 
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crossover( 交 叉 ) 142 

CSP, 参见 constraint satisfaction problem 

culture( 文 化 ) 6 

cumulative probability distribution (累积 概率 分 
i), 257 

cumulative reward( RE HR). 401 

cyc(cyc), 564 

cycle(SP), 75 

cycle check( 环 检查 ) 93 

cyclic( 有 环 的 ) 184 


D 


DAG( 有 向 无 环 图 )，75 
Datalog, 494 
datatype property( 数 据 类 型 属性 )，568 
DBN, #3 dynamic belief network 
DCG, ÆJ definite clause grammar 
dead reckoning( 航 位 推算 )，58 
debugging( 调 试 )，179 
incorrect answers( 不 正确 解答 )，180 
infinite loops( 死 循环 ) 184 
missing answers( it k WAZ), 182 
decision( 决 策 ) 
sequential( 序 贯 )，386 
single( 单 一 ) 384 
decision function( 决 策 函 数 )，391 
decision network( RH M4), 384, 387, 428 
decision node( 决 策 节 点 ) 384 
decision tree( 决 策 树 )，298，382，426 
learning 3), 298., 321 
decision tree learning RRM FY), 232 
decision variable RH ZMH), 382 
decision-theoretic planning( 决 策 理论 规划 ) ，409 
deduction( 演 绎 )，167，200 
Deep Space One( 深 度 空间 一 号 )，212 
default (#R fÈ), 176, 196 
definite clause( 确 定子 句 ) 163, 494, 496 
definite clause grammar (DCG) (确定 子 句 文法 )， 
522 
definite clause resolution( 确 定子 名 归结 )，169 
delay( 推 迟 )，536，590 
delete list( 删 除 表 )，354 
delivery robot( 传 送 机 器 人 )，30 
DENDRAL(DENDRAL 专家 系统 )，9 
denote( 指 示 )，496 


dense( fa), 46 
dependent continuant( MJBIF FEI) , 573+ 575 
depth-bounded meta-interpreter (3% HE A 7 JG i f 
器 )，587 
depth-first search( 深 度 优 先 搜索 )，80 
derivation( 推 导 ), 167, 171, 510 
derived( FH), 167, 204, 354, 600 
knowledge( 178). 558 
description logic( 描 述 逻 辑 ) 568 
design( 设 计 )，4，202 
design space( 设 计 空间 )，19 
design time reasoning( 设 计时 推理 )，17 
desire( 愿 望 )，49 
deterministic( 确 定 的 ) 24 
diagnosis( 诊 断 )，201 
abductive( Mi), 201 
consistency-based( 基 于 一 致 性 的 )，187 
diagnostic assistant( 诊 断 动手 )，30，33 
dictator(# if Agent), 447 
difference list( 差 异 列表 ) 522 
differentia( 区 别 特征 ) ，567 
dimension( 维 度 ) 
computational limits( 计 算 限 制 )，26 
effect uncertainty( 影 响 不 确定 ) 24 
learning( 学 习 ) 26 
modularity ik tE), 19 
number of Agents( Agent 数量 )，25 
planning horizon( 规 划 时 域 )，22 
preference( 偏 好 )，24 
representation scheme( 表 示 方 案 )，20 
sensing uncertainty( 感 知 不 确定 性 )，23 
directed acyclic graph( 有 疝 无 环 图 )，75 
directed graph( 有 问 图 )，75 
Dirichlet distribution( Dirichlet 分 布 )，337 
discount factor( 折 扣 因 子 ) 402 
discounted reward( 折 扣 回 报 ) ，402 
discrete( 离 散 的 ) 46 
discrete variable( 离 散 变 量 )，113 
disjunction( 析 取 )，158，185，585 
disjunctive normal form( 析 到 范式 )，189 
disposition( 处 置 )，575 
distribution( 分 布 ) 
normal( 正 态 ) 223 
do(do( 执 行 )) 598 
domain( 域 ) 112, 113, 496, 552, 633 


„domain consistent( 域 一 致 ) 121 
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domain expert( 领 域 专家 ) 63 

domain ontology( 领 域 本 体 )、571 

domain splitting ( 54} #4]). 125 

dominant strategy( % Ac Eg), 446 
dominates( ¥ fig). 439 

don’t-care norrdeterminism( 不 介意 不 确定 性 )，170 
don’ t-know non-determinism( 不 知道 不 确定 性 )，170 
dot product( 点 积 )，271 

DPLL, 127 

dynamic( 动 态 ) 599 

dynamic belief network( 动 态 信念 网 络 )，272 
dynamic decision network( 动 态 决 策 网 络 ) 409 
dynamic programming( 动 态 规划 )，103 
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economically efficient (Z AXO, 446 
effeet( 影 响 ) 350, 354 
effect constraints( 影 响 约 束 ) 361 
effect uncertainty dimension( 影 响 不 确定 维度 ) 24 
effectively computable( 能 行 可 计算 )，7 
effector( 效 应 器 ) 44 
efficient( 高 效 的 ) 446 
eligibility trace( 资 格 迹 ) 479 
elimination ordering( 消 除 排序 ) 252 
EM(EM， 期 望 最 大 化 ) 452. 455, 460 
embedded Agent AZ Agent), 59 
embodied( 物 化 的 ) 44 
empirical frequency( 经 验 频率 )，295 
endogenous variables( 内 因 变 量 )，206 
engineering goal( 工 程 目标 )，4 
ensemble learning( 集 成 学 习 )，319 
entails( 人 逻辑 蕴含 )，160 
entity( 实 体 )，573 
entropy(#§), 232, 292 
environment( 环 境 ) 10 
epistemological( 认 识 论 的 ) 221 
epistemology( 认 识 论 ) 9 
equal( 相 等 ) 532 
error( 误 差 )，288 

absolute( 绝 对 ) ，290 

sum squares( 平 方 和 )，290 

worst case( 最 坏 情况 下 )，291 
error of hypothesis( 假 设 的 误差 )，332 
Euclidean distance( 欧 氏 距 离 )，95，、325 
evaluation GF ff). 145 


evaluation function (Eft RRO, 132, 433 

event calculus( 事 件 演 算 ) 604 

evidence( 证 据 )，225 

evidential model( 证 据 模 型 )，205 

evolutionary algorithm( 演 化 算法 )，466 

exclusive-or( 异 或 ) 308 

existence uncertainty( 存 在 的 不 确定 性 )，619 

existentially quantified variable( 存 在 量化 的 变量 )， 
500 

exogenous variables( 外 因 变 量 )，206 

expanding( 扩 展 )，78 

expectation maximization (EM) (期 望 最 大 化 )， 
452 


expected monetary value( 期 望 货币 价值 ) 376 


expected utility GH AAH). 386. 392 
expected value( 期 望 值 )，230 

of utility of a policy( 策 略 的 效用 的 )，392 
experience( 经 历 ) 468 
expert opinion( 专 家 观点 ) 297 
expert system( ZR R). 9, 10, 61 
explained away( 解 释 消 除 ) 201. 243，245 
explanation( 解 释 ) 201 
exploit( 利 用 ) ，472 
explore( 探 索 ) 472 
expression( 表 达 式 )，496 
extensional( 外延 的 )，559 
extensionally( Sp HE #4) , 116 
extensive form(# BBX), 426 
external knowledge source( 外 部 知识 源 )，65 
extrapolation( 外 推 )，286 
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fp), 89 

factor( 因 子 ) 249, 634 

factored finite state machine( 因 素 化 有 限 状 态 机 )， 
50 

factored representation( 因 素 化 表达 )，50 

factorization( 因 式 分 解 )，236 

fail( 失 败 )，170 

failing naturally( 正 常 失败 )，96 

failing unnaturally( 非 正常 失败 )，96 

failure( 失 败 )，197 

fair( 公 平 的 )，170，518 

fairness( 公 平 )，19 

false( 假 )，159，498 
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false-negative error( 错 否定 错误 ) 14, 182, 292 

false-positive error( 错 肯定 错误 ) 14, 180, 292, 
293 

fault (k), 187 

feature engineering( 特 征 工程 )，484 

feature-based representation of actions( 基 于 特征 的 
动作 表示 法 )，353 

features( 特 征 )，21，112 

feed-forward neural network( 前 馈 神 经 网 络 ) 316 

fiat part of an object( 对 象 的 特殊 部 分 ) 575 

fiat part of process( 过 程 的 特殊 部 分 ) 576 

filler( 填 充 物 )，556 

filtering( 过 滤 )，58，267，271 

finite failure( 有 限 的 失败 )，199 

finite horizon( 有 限时 域 ) 23 

finite state controller( 有 限 状 态 控制 器 )，50 

finite state machine( 有 限 状 态 机 )，50 

first-order predicate calculus( 一 阶 谓词 演算 )，517 

fixed point( 不 动 点 )，169 

flat( 扁 平 的 )，20 

floundering goal( 率 乱 的 目标 ) 541 

fluent( 流 )，599 

flying machines( 飞行器 )，9 

for all( 对 于 所 有 的 )，500 

forward chaining( 正 向 链接 ) 167 

forward planner( 前 向 规划 器 ) 356 

frame( 框 架 )，556 

frame problem( 框 架 问 题 ) 618 

frame rule( 框 架 规则 )，353，601 

framing effect( 框 架 效 应 )，380 

frequentist( 频 率 论 者 的 )，220 

fringe( 边 缘 )，77 

frontier( 前 沿 )，77 

fully observable( 完 全 可 观察 )，23 

fully observable dynamic decision network( 完 全 可 
观察 动态 决策 网 络 )，411 

fully observable Markov decision process( 完 全 可 观 
察 马尔 可 夫 决 策 过 程 )，401 

function( 功 能 )，575，633 
symbol( 符 号 ) 514 

fuzzy terms( 模 糊 项 ) 52 


G 


gambling( 赌 博 ) 220 
game tree( 博 弈 树 ) 426 


Gaussian distribution( 高 斯 分 布 )，223 

general boundary( 一 般 边 界 )，329 

generalized additive independence (广义 累加 独立 
性 )，381 

generajize( 泛 化 ) 285 

generalized answer clause( 一 般 解 符 子 句 )，509 

generalized arc consistency algorithm (广义 弧 一 致 
算法 ), 122 ` 

generate and test( 生 成 并 测试 ) 118, 146 

genetic algorithms( 遗 传 算法 ) 142 

genuas( 种 类 ) 567 

Gibbs distribution(Gibbs 分 布 ) 142, 473 

Gini index(Gini ###), 302, 345 

global minimum( 全 局 最 小 值 )，149 

goal( 目 标 )，11，25，49，171，356 
node( 节 点 )，75 

goal constraints( 目 标 约束 ) 361 

gradient descent( 梯 度 下 降 )，149，304 

gramrmar( 文 法 ) 521 
context-free( 上 下 文 无 关 )，521 
definite clause( 限 定子 句 ) 522 

graph( 图 )，75 

greedy( AE), 23, 609 

greedy ascent(@@ #8 EFF), 132 

greedy descent( #48 FRE), 132 

ground(3£), 496 

ground instance( EE Hj), 506, 507 

ground representation (Hmi Has). 580 


H 


h(n), 87 
hard clustering( E #28), 452 
hard constraint (BE Eż HR), 111, 115 
head(%&), 163, 496 
help system( #9 Hi AH), 246, 312 
Herbrand interpretation( Herbrand 解释 )，508 
heuristic A ÆI) 
function( xX), 87 
knowledge( 知 识 ) 72 
search( 搜 索 ) 87 
heuristic depth-first search (启发 式 深度 优 先 搜 
索 )，88 
hidden Markoy model 《HMMND ( 隐 马 尔 可 夫 模 型 )， 
267 
hidden variable( 隐 和 藏 变量 )，244，460 
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hierarchical( 层 次 结构 的 ) 20 

hierarchical Bayesian model( 层 次 贝 叶 斯 模型 )， 
338 

hierarchical control(4} 243 Wl), 50 

hill climbing (MG Ll) WH), 132 

history( Jj E), 10, 48, 468 

HMM, Ä hidden Markov model 

Hoeffding’s inequality( Hoeffding 不 等 式 )，259 

horizon( 时 域 ) 361 

Horn clause(Horn 子 句 )，185 

how( 如 何 )，17 

how question(“ 如 何 ” 问 题 )，177 

human-computer interaction (HCI)( 人 机 交互 )， 
578 

hyperparameters( 超 参数 )，339 

hypothesis( 假 设 )，288 

hypothesis space( 假 设 空 间 )，288，328 


identity uncertainty( 身 份 不 确定 性 )，619 

imperfect information game (不 完全 信息 博弈 )， 
428 

implication( #4). 158 

incoming arel AJK), 75 

inconsistent( 不 一 致 ) 186 

incorrect answer( 不 正确 答案 )，180 

incremental gradient descent( 增 量 梯度 下 降 )，305 

indefinite horizon( JERR BYR), 23, 399 

independent( 4h WF), 233 

independent and identically distributed (i. i. d. ) (4h 
立 同 分布 )，335 

independent choice logic (ICL) (独立 选择 逻辑 )， 
615 

independent continuant( 独 立 持 存 体 )，573，575 

indicator variable( 指 示 变 量 ) 141, 290 

indifferent( 无 差别 ) 373 

individual( 个 体 )，22，141，492，496，568 

individual-property-value( 个 体 - 属 性 - 值 )，552 

induction( 归 纳 )，200，284 

inductive logic programming( 归 纳 逻 辑 编程 )，606 

inference( 推 理 )，167 

infinite horizon( 无 穷 时 域 )，23，399 

influence diagram( 影 响 图 )，387 

information content( 信 息 内 容 )，232 

information gain( 信 息 增 益 )，232，302 


information set( 信 息 集 合 )，428 
information theory( 信 息 理论 )，231，323 
init(init( 初 始 情景 ))，598 - 
initial-state constraints( 初 始 状态 约束 )，361 
input features( 输 入 特征 )，288 
insects( 昆 虫 )，18 
instance( 实 例 ) 504, 506 

ground( 基 ) ，507 
instance space( 实 例 空间 )，328 
insurance( 保 险 ) 377 
integrity constraint( 完 整 性 约束 ) 185 
intelligent tutoring system( 智 能 指导 系统 )，35 
intended interpretation( 预 期 解释 )，161，501 
intensional( 内 涵 的 )，559 
intensionally( 内 涵 地 )，116 
intention( 意 图 )，49 
interpolation( 插 值 )，286 
interpretation( 解 释 ) 159, 496 
intersection( 交 ) ，636 
intervention( F Hi), 204, 206, 241 
involve( # MR), 115 
island (J4), 102 
island-driven search( 和 孤岛 驱动 搜索 )，101 
iterative best improvement( 和 迭代 最 佳 改进 ) 132 
iterative deepening( 和 迭代 深化 ) 95 

A‘ (A* RHE), 98 


J 


Java( 一 种 面向 对 象 的 编程 语言 )，495，558 

join( 连 接 )，636 

joint probability distribution (联合 概率 分 布 )， 
236，252 


K 


k-fold cross validation(k- 折 交叉 验证 ) 324 

k-means algorithm(&- 均 值 算法 ) 452 

kd-tree(kd-#}), 326 

kernel functions( 核 函数 ) 314 

knowledge(#liA). 12, 60 

knowledge base (#1 R FE), 12, 17, 60, 160, 
163, 494, 496 

knowledge engineers( 知 识 工程 师 ) 63 

knowledge is given (CAMRE EHI), 26 

knowledge is learned( 知 识 是 学 习 到 的 ) 26 

knowledge level( 知 识 层 ) 16, 176 
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knowledge-based systern( 基 于 知识 的 系统 )，60 
knowledge-level debugging( 知 识 层 的 调试 ) 180 


L 


landmarks( 标 志 )，52 
language( 语 言 ) 521 
natural( 自 然 )，520 
language bias( 语 言 偏 置 ) 331 
latent tree model( 潜 在 树 模型 ) 314 
latent variable( 潜 在 变量 )，244，309，460 
learning 《学 习 )，61，283-347，441-445， 451- 
488，606-611 
Bayesian( 贝 叶 斯 )》，334 
bias( 偏 置 )，331 
case-based( 基 于 案例 的 )，324 
decision trees( 决 策 树 )，232，298 
decision tree( 决 策 树 ) 321 
multiAgent( 多 Agent), 441 
neural network( 神 经 网 络 ) 315 
PAC，332，340 
relational( 关 系 的 )，606 
supervised( 有 监督 的 )，284 
to coordinate( 协 调 )，441 
unsupervised( 无 监督 的 )，285，451 
version space( 变 型 空间 )，329 
learning bias( 学 习 偏 置 ) 321 
learning dimension( 学 习 维 度 )，26 
learning rate( 学 习 率 )，304 
leave-one-out cross-validation( 留 一 法 交叉 验证 )， 
325 
leaves( 叶 节点 )，75 
level of abstraction( 抽 象 的 层次 )，15 
life-long learning( 终 生 学 习 )，6 
likelihood( 可 能 性 ) 229 
likelihood of the data( 数 据 的 似 然 性 ) 292 
linear function( 线 性 函数 ) 304 
linear regression( 线 性 回归 )，304，484 
linearly separable( 线 性 可 分 )，308 
Linnaean taxonomy( 林 奈 分 类 )，567 
lists( 列 表 ) ，516 
literal. XF), 126, 194 
liveness (EKE), 18 
local minimum( 局 部 极 小 )，149 
local optimum( 局 部 最 优 )，132 
local search( 局 部 搜索 )，130，131，609 


localization( 定 位 )，268 

logic G2 #8), 495 

logic program GE #4 #8 FF), 514 

logic programming GE $ fa), 207 
logical consequence GZ BA), 160, 499 
logical variable( #34), 494 

logically follows( 还 辑 遵循 )，160 

logistic function(logistic 函数 )，307 
long-term memory( 长 期 记忆 ) 61 

loop check( 循 环 检查 )，93 
lottery( 抽 奖 法 )，373 

lowest-cost-first search( 最 低 代 价 优先 搜索 )，86 


M 


M features(M 特征 )，360 

M system(M 系统 )，51 

machine learning( 机 器 学 习 )， 参 见 learning 

maintenance goal( 维 持 性 目标 )，25，355 

MAP model(MAP 模型 ) 321 

mapping( 映 射 )，633 

margin( 间 隔 )，314 

Markov assumption( 马 尔 可 夫 假 设 )，266 

Markov blanket( 34 A] KH). 235 

Markov chain( 5 4R A] RHE), 266 

Markov decision process (马尔 可 夫 决 策 过 程 )， 
399, 463 

matrix multiplication E EE), 271 

maximum a posteriori probability (最 大 化 后 验 概 
率 )，321 

maximum entropy (RAKA), 233, 234 

maximum likelihood model (最 大 似 然 模型 )， 
292, 321 

maximum-likelihood estimate( 最 大 似 然 估计 )、295 

MDL principle( MDL 准则 )，323 

MDP, #3 Markov decision process 

measure( Bf Ht), 221 

mechanism(#L fil), 424, 446 

mechanism design HLA HiT). 446 

meta-interpreter( 元 解释 器 ) 579, 580, 582 
ask the user( 询 问 用 户 )，589 
build proof tree( 构 建 证 明 树 ) ，587 
built-in predicates( 内 置 谓 词 )，586 
delayed goals( 推 迟 的 目标 )。590 
depth-bounded( 深 度 有 限 )，587 
disjunction( 析 取 )，586 
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vanilla( 普 通 的 )，583 
meta-]level( 元 级 )，580 
metalanguage( 元 语言 )，580 
MGU( 最 广 合 一 算 子 )，507 
minimal( 最 小 ) 
conflict( 冲 突 )， 187 
model( 模 型 ) 169 
minimal diagnosis( 最 小 诊断 ) 189 
minimal explanation( 最 小 解释 ) 201 
minimal model( 最 小 模型 )，509 
minimax( 极 小 极 大 )，430 
minimum description length (MDL) (最 小 描述 长 
BE), 323 
minimum fixed point( 最 小 不 动 点 )，169 
missing at randorm( 随 机 和 缺失) 461 
model( 模 型 )，15，57，116，160 
modular( 模 块 化 的 ) 20 
modularity( 模 块 性 ) 19 
modularity dimension( 模 块 性 维度 )，20 
modus ponens( 假 言 推理 ) 167 
money pump( 货 币 泵 ) 374 
monitoring( 监 督 )，267，271 
monotone restriction( 单 调 限制 ) 95 
monotonic (HY), 196 
more general hypothesis( 更 一 般 的 假设 )，329 
more specific hypothesis( 更 明确 的 假设 ) 329 
most general unifier( 最 广 合 一 算 子 ) 507, 511 
multiAgent decision network( 多 Agent 决策 网 络 ) ， 
428 
multiple Agent(# Agent), 25 
multiple-path pruning( 多 路 径 剪 枝 ) 93, 94 
mutex constraint( FAR), 361 
MYCIN, 9 
myopic( 短 视 的 )，23 
myopically optimal( 目 前 看 来 是 最 优 ) 301 


N 


N3, 555 

naive Bayesian classifier (朴素 贝 叶 斯 分 类 器 )， 
246，310，455 

Nash equilibrium( 纳 什 均衡 )，436 

natural kind( 自 然 类 ) 309, 313, 559 

natural language processing( 自 然 语言 处 理 ) 520 

naturel H RIRE), 44, 424 

nearest neighbors( 最 近邻 ) 325 


negation( 否 定 )，158，185 

negation as failure( 否 定 即 失败 )，194，199，537 

negative examples( 负 类 样本 )，607 

neighbor( 邻 居 )，75，131 

neural network( 神 经 网 络 ) 315 

no，166 

no-forgetting Agent( 无 遗忘 Agent), 388 

no-forgetting decision network( 无 遗忘 决策 网 络 )， 
388 

node( 节 点 )，75 

noisy( 噪 声 ) 267 

noisy or( IR Æ), 250 

non-deterministic( A MÆ AY), 170 

non-deterministic procedure( 不 确定 性 过 程 )，170 

non-ground representation(4f #27), 580 

non-monotonic( 非 单调 的 )，196 

non-parametric distribution( 非 参数 化 分 布 )，223 

non-planning( 非 规划 )，23 

non-serial dynamic programming ( 非 序 列 动态 规 
划 )，151 

non-terminal symbol( 非 终结 符号 ) 521 

nonlinear planning( 非 线性 规划 )，364 

normal distribution( 正 态 分 布 )，223 

normal-form game( 标 准 式 博弈 )、425 

NP-complete( NP 完全 ) 170 

NP-hard(NP 3), 170 

number of Agents dimension (Agent 数量 维度 )， 
25 

number uncertainty( 数 量 不 确定 性 )，619 


O 


object( 对 象 ) 552, 575 

object aggregate( 对 象 聚 合 ) 575 

object language( 对 象 语 言 )，580 

object property( 对 象 属性 ) ，568 

object-oriented languages( 面 向 对 象 语 言 )，495 

object-oriented programming (OOP) languages( 面 
向 对 象 编 程 语言 )，558 

objective function( H pA). 144 

observation( ##), 11, 17, 174, 225 

occurrent (HARK), 573, 575 

occurs checKk( 出 现 检 查 )，518 

Ockham’s razor( 奥 卡 姆 剃刀 原理 )，287 

off policy( 离 策略 )，470 

off-policy learner( 离 策略 学 习 器 ) 475 
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offline (HR), 61 

offline computation( 离 线 计算 )，17 

offline learning (离线 学 习 )，285 
omniscient agent( 全 知 Agent), 114 
on-policy learner( 在 策略 学 习 器 )，475 
one-point crossover( 单 点 交叉 ) 142 
online( 在 线 )，60，64 

online computation( 在 线 计 算 )，17 

online learning( 在 线 学 习 )，285 
ontological( 本 体 论 的 )，221 
ontology( 本 体 )，61，161，175，549，563 
OOP, Å object-oriented programming 
open-world assumption (FF Ak tt FBI), 193 
optimal (eft wy). 74 

optimal algorithm( 最 优 算法 ) 105 

optimal policy (RER), 386, 392, 403 
optimal solution( 最 优 解 )，13，76 
optimality criterion( 最 优 性 标准 )，144 
optimization problem( 最 优化 问题 )，144 
oracle( MA), 170 

orders of magnitude reasoning( 量 级 推理 ) 52 
ordinal( 与 顺序 有 关 的 )，13 

ordinal preference( 与 顺序 有 关 的 偏好 )，25 
organizations( 组 织 )，6. 

outcome( 结 果 )，373，382，425 

outgoing arc( 出 弧 )，75 
overfitting( 过 拟 合 )，303 

OWL(Web 本 体 语言 )，564，568 


P 


PAC learning(PAC ¥ 3), 332, 340 

pair(X}), 633 

parametric distribution( 参 数 分 布 )，223 

parametrized random variable (参数 化 随机 变量 )， 
613 

paramodulation( 人 参数 化 调整 )，、534 

parents( 父 节点 ) 235 

partial( 部 分 的 ) 267 

partial evaluation( 部 分 评价 )，590 

partial-order planning( 偏 序 规划 )，363 

partially observable( 部 分 可 观察 )，23 

partially observable game( 部 分 可 观察 博弈 ) 428 

partially observable Markov decision process( 部 分 
可 观察 马尔 可 夫 决 策 过程 )，401，411 

particle( 粒 子 ) 264 


particle filtering( 粒 子 滤波 )，264，265 

passive sensor( 被 动 传感器 ) ，64 

past experience( 过 去 的 经 验 )，11 

path( 路 径 )，75 

consistency( 一 致 性 )，125 

payoff matrix( 支 付 和 矩阵 )，426 

percept( 感 知 )，45 

percept stream( 感 知 流 )，46 

percept trace( 感 知 轨 迹 )，46 

perception( 感 知 ) 58 

perceptron( 感 知 器 ) 306 

perfect information( 完 全 信息 ) 430 

perfect information game( 完 全 信息 博弈 ) 426 

perfect rationality( 完 全 理性 )，26 

philosophy( 哲 学 )，9 

physical symbol system( 物 理 符 号 系统 )，15 

physical symbol system hypothesis( 物 理 符号 系统 
假设 )，15，319 

pixels( 像 素 )，45 

plan( 规 划 )，356 

planner( 规 划 器 )，356 

planning( 规 划 )，356-370，604 

as a CSP( 作 为 一 个 CSP)，360 

forward( 前 向 )，356 

partial-order( 偏 序 ) ，363 

regression( 回 归 )，357 

planning horizon( 规 划 时 域 )，22 

planning horizon dimension( 规 划 时 域 维度 ) 23 

plate model( 平 板 模型 )，338，613 

point estimate( 点 估计 )，288 

policy( 策 略 )，103，386，390 

policy iteration (KRIAR), 407 

policy search( 策 略 搜索 ) 466 

POMDP, 参见 partially observable Markov deci- 
sion process 

population(#P AF), 141, 264 

positive examples( 正 类 样本 ) 607 

possible( 可 接受 的 )，358 

possible world( 可 能 世界 )，113，115，382，391， 
615 

posterior probability( 后 验 概率 ) ，225 

pragmatics( 语 用 ) 521 

precision( 精 确 度 ) 293 

precision-recall curve( 淮 确 度 - 召 回 率 曲线 )，293 

precondition( 先 决 条 件 )，350，353，354,.601 

precondition constraints( 先 决 条 件 约束 )，361 
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predicate symbol( 谓 词 符 号 ) 494 
preference( (mi), 144 
preference bias( 偏 好 偏 置 )，331 
preference dimension( 偏 好 维度 )，25 
preference elicitation( 偏 好 引出 )，379 
primitive( 原 始 )，204，354，566，600 
knowledge( 知 识 )，558 
prior count( 先 验 计数 )，296 
prior knowledge( 先 验 知识 ) 10 
prior probability( 先 验 概率 ) 225 
prisoner’s dilemma( 因 徒 困境 )，437 
probabilistic independence( 概 率 独 立 性 )，233 
probabilistic inference( 概 率 推理 ) 248 
probabilistic relational model (PRM) (概率 关系 模 
型 )，612 
probability( 概 率 )，219-275，295 
axioms( 公 理 ) 224 
conditional( 条 件 )，225 
posterior( 后 验 )，225 
prior( 先 验 )，225 
probability density function( 概 率 密度 函数 )，223 
probability distribution( 概 率 分 布 )，222 
probability mass( 概 率 质 量 ) 262 
probability measure( 概 率 度 量 ) 221 
probable solution( 可 能 解 ) 14 
probably approximately correct (可 能 近似 正确 )， 
259，332 
probably approximately correct learning( 可 能 近似 
正确 学 习 ) ，332 
process( 过 程 )，23，576 
process aggregate( 过 程 聚 合 ) ，576 
processual context( 过 程 性 上 下 文 )，576 
processual entity( 过 程 性 实体 )，576 
projection( 投 影 )，636 
Prolog, 9, 494, 496 
proof( 证 明 )，167 
bottom-up( 自 底 向 上 )，167 
top-down( 自 顶 向 下 )，169 
proof procedure( 证 明 过 程 )，167 
proof tree( 证 明 树 ) 179 
prop, 552 
property JE), 552, 568 
property inheritance( 属 性 继承 ) 561 
proposal distribution( 提 议 分 布 )，260，261 
proposition( 命 题 ) 21, 158 
propositional calculus( 命 题 演算 )，158 


propositional definite clause tesolution( 命 题 确 定子 
名 解析 ) 169 

propositional definite clauses( 命 题 确 定子 句 )，163 

propositional satisfiability( 命 题 可 满足 性 )，126 

prospect theory( 前 景 理论 ) 380 

proved( 证 明 )，167 

pseudocount( 伪 计数 ) 296 

psychology( 心 理学 )，9 

punishment( 征 加) 399 

pure strategy( 纯 策略 ) 435 

pure symbol( 纯 符号 ) 127 

purposive agent( 有 目标 的 Agent), 44 


Q 


Q`, 404 

Q-learning(Q@ 学 习 )，469 
Q-value(Q@ 值 )，404，469 

Qr, 403 

qualitative derivatives( 定 性 导出 )，52 
qualitative reasoning( 定 性 推理 ) 52 
quality (41E), 575 

quantitative reasoning (E EHEM), 52 
query(# J), 166, 494, 496 
querying the user( 询 问 用 户 )，175 


R 


random initialization( 随 机 初始 化 )，131 
random restart( 随 机 重启 )，131 
random sampling( 随 机 采样 )，132 
random variable( 随 机 变量 )，221 
random walk( 随 机 游 走 )，132 
random worlds( 随 机 世界 )，233，2314 
range( 范 围 ) 552, 633 
rational( 理 性 )，376 

rational agent( 理 性 Agent), 373 
RDF, 555, 559, 564 

RDF Schema, 559 

RDF-S, 564 

rdf; type, 559 

rdfs; subClassOf, 559 
reachable( AJ KAY), 599 

realizable entity( 可 实现 实体 )，575 
reasoning( 推 理 ) 17 

recall( 召 回 ) 293 
recognition( 确 认 )，201 
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record linkage( 记 录 关 联 ) 619 

recursively enumerable(# H A] #), 517 

reflection( (iB), 579 

regression( 回归)，284，304 

regression planning( A] HLR). 357, 358 

regression tree( 回 归 树 )，314 

reify( 具 体 化 ) 552 

reinforcement learning( 增 强 学 习 )，285，463 

rejection sampling( 含 选 采 样 )、259 

relation( 关 系 )，22，492，633，635 

relational algebra( 关 系 代数 ) 635 

relational database( 关 系数 据 库 )，635 

relational descriptions( 关 系 描述 )，22 

relational probability model( 关 系 概率 模型 )，612 

relational uncertainty( 关 系 的 不 确定 性 )，619 

representation( 表 示 )，12 

representation scheme( 表 示 方 案 )，12 

representation scheme dimension( 表 示 方 案 维度 )， 
20，22 

resampling( 重 采样 ) 264 

resolution( 归 结 )，169，171 
SLD, 169, 510 

resolvent(4¢##), 171 

resource( $f YH), 555, 564 

Resource Description Framework( 资 源 描述 框架 )， 
555, 564 

restriction bias( 限 制 偏 置 ) 331 

return( 返 回 值 ) 469 

revelation principle( 显 示 原 理 ) 447 

reward( 回 报 ) ，399 

rewrite rule( 重 写 规则 )，521，534 

risk averse( 风 险 规 避 )，377 

robot( 机 器 人 )，10，30，44 

ROC curve(ROC 曲线 ) 293 

role( ff 6), 63, 575 

root( 根 ) 75 

rule( 规 则 )，163，494，496 

rule of derivation( 推 导 规 则 )，167 

run( 运 行 )，427 

run-time distribution( 运 行 时 间 分 布 )，138 


S 


safety goal( 安 全 目标 )，18，355 
sample average( 样 本 均值 )，258 
sample complexity( 样 本 复杂 度 ) 333 


SARSA(A), 479 
satisfiable( 可 满足 的 ) 201 
satisficing( 满 意 )，14 
satisficing solution( 满 意 解 )，14 
satisfies( 满 足 )，116 
policy( 策 略 )，391 
satisfy( 满 足 )，115 
scenario( 情 景 )，201 
scheme(F7 #), 115. 635 
scientific goal( 科 学 目标 )，4 
scope( 范 围 )，115，145，634，635 
search( 搜 索 )，71-110 
A*, 89 
best-first( 最 佳 优 先 )，88 
bidirectional( 双 向 )，101 
breadth-first( 宽 度 优 先 )，84 
cycle-checking( 环 检查 )，93 
depth first( 深 度 优 先 )，80 
dynamic programming( 动 态 规 划 )，103 
gradient descent( 梯 度 下 降 )，149 
heuristie( 启 发 式 )，87 
island driven( 孤 欧 驱 动 )，101 
iterative deepening{ 选 代 深 化 )，95 
local search( 局 部 搜索 )，130 
lowest-cost-first( 最 低 代 价 优先 )，86 
search and score( 搜 索 与 评分 )，462 
search bias( 搜 索 偏 置 )，331 
second-order logic( — KE), 517 
second-price auction( 第 二 价格 拍卖 ) 448 
select( 选 择 )，170 
selection( 选 择 )，635 
selector function( 选 择 器 函数 )，615 
semantic interoperability( 语 义 互 操作 )，65，550 
semantic network( 语 义 网 ) 554 
semantic Web( 语 义 Web), 555, 564 
semantics), 159, 520 
propositional calculus( 命 题 演 算 )，159 
variables( 变 量 ) 496 
sensing uncertainty dimension( 感 知 不 确定 维度 )，23 
sensor( 传 感 器 )，44，45，64 
sensor fusion( 传 感 器 融合 ) 270 
separable control problem( 可 分 割 的 控制 问题 )，58 
sequential decision problem( 序 贯 决策 问题 )，386 
sequential prisoner’ s dilemma( 序 贯 囚徒 困境 )，438 
set( 集 合 ) 633 
set difference( 集 合 差 )，636 
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short-term memory( 得 期 记忆 )，61 step size( 步 长 》，150，151 

sigmoid, 307 stimuli( 刺 激 )，45 

simulated agent( 仿 真 Agent). 59 stochastic( 随 机 的 )，24 

simulated annealing( 模 拟 退 火 )，136 stochastic beam search( 随 机 集束 搜索 )，142 
single agent( 单 个 Agent)，25 stochastic local search( 随 机 局 部 搜索 )，134 
single decision( 音 一 决策 ) 384 stochastic simulation( 随 机 模拟 )，256 
single-stage decision network( 单 阶段 决策 网 络 )，384 stochastic strategy( 随 机 策略 )，435 

site( 位 置 )，575 stopping state( 停 止 态 ) 399 
situation( 情 景 )，598 strategic form of a game( 博 弈 的 策略 形式 )，425 
situation calculus( 情 景 演算 ) 598 strategically( 策 略 地 ) 424 

SLD derivation(SLD 推导 )，171，510 strategy( 策 略 ) 426, 427, 435 

SLD resolution(SLD 归结 ) 169, 510 strategy profile MA), 427, 435 

slot( fi), 556 strictly dominated( 严 格 被 支配 的 )，147 
Smalltalk, 558 strictly dominates(/" #4 % BC), 440 
smoothing( FH), 267, 271 strictly preferred( 严 客 偏好 )，373 

SNLP, 370 STRIPS assumption(STRIPS 假设 )，354 
social preference function( 社 会 偏好 函数 )，446 STRIPS representation(STRIPS 表示 )，354 


society( 社 会 )，6 
soft clustering( 软 聚 类 ) 452 subClassOf, 559 
soft constraint( 软 性 约束 )，111，145 a perfect equilibrium( 子 博弈 完全 均衡 )，439 
soft-max( 软 最 大 化 )， 473 subgoal( 子 目标 )，171 
software agent CR Agent), 10 subject( 主题) 552 
sofrware engineer Mei LAER) dace subjective probability( 主 观 概率 )，220 
palesa engineering( 软 件 工程 )，13 substitutes( 替 换 ) 381 
saber es ‘el fs substitution (#4), 506 
OEEN d i sum-of-squares error( 平 方 和 误差 )，290，453 
spatial region( 45 [A] #2 fA). 573, 575 , i 

y S supervised learning( 有 监督 学 习 》，284，288 
spatio-temporal region( 时 空 范围 ) 576 

is. support set ($F), 435, 439 
specialization operator( HALA F), 609 i; 

“a support vector machine (SVM) (支持 向 量 机 )，314 
specific boundary( 特 定 的 边界 ) 329 

i . SVM, J support vector machine 
squashed linear function( 遍 线性 函数 )，306 
symbol( 符 号 ) 15, 114 


stable( 稳 定 的 ) 453 
stack( 栈 )，80 symbol level( 符 号 层 )，17 
stage( 阶 段 )，23 symbol system( 符 号 系统 )，15 
start node( 起 始 节点 )，75 syntax( 句 法 ) 520 

Datalog, 494 


start states( 初 始 状态 ) 74 ae 
i ,0d propositional definite clauses( 命 题 限 定子 句 ) 163 
synthesis( 综 合 ) 4 


state( 状 态 ) 20, 72 a 
state constraints( 状 态 约 束 ) 361 yetenek ROG). 370 


structure learning (š t3), 461 


state space( 状 态 空 间 ) 72 T 
state-space graph( 状 态 空间 图 )，351，356 

state-space problem( 状 态 空 间 问 题 )，74 tabu list( 禁 忌 表 )，135 
static( 静 态 ) 599 target features( 目 标 特征 )，288 
stationary( 平 稳 的 )，266，399 TD error(TD 误差 )，467 
stationary policy( 平 稳 策 略 )，403 tell( 告 诉 ) 161 


step function( fit KBR). 306 temperature( 温度) 473 
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temporal difference error( 时 间 差 分 误差 )，467 

temporal region( 时 域 范围 )，575 

term( 项 ) 494, 514 

terminal symbol( 终 结 符号 ) 521 

terminological knowledge base( RH ANRE), 568 

test examples (WFE), 288 

theorem( 定 理 ) 167 

there exists( 存 在 ) 500 

thing( 事 物 )，573 

thinking( BH), 4 

threat( BRM), 438 

time( At jE), 46, 598 

tit-for-tat( 一 报 还 一 报 )，438 

top-down proof procedure( 自 顶 向 下 的 证 明 过 程 )，169 

total assignment( 全 赋值 )，115 

total reward( 总 回报 )，402 

trading agent( 交 易 Agent), 30, 37 

training examples GJI RAFAL), 284, 288, 328 

transduction( ## fk), 48 

transitivity of preferences( 偏 好 的 传递 性 )，374 

tree( 树 )，75 

tree augmented naive Bayesian (TAN) network( 树 
增强 朴素 贝 叶 斯 网 络 ) 314 

treewidth( 树 宽 ) 130, 256 

triple( 三 元 组 )，552，555，606，633 

triple representation( 三 元 组 表示 )，552 

true( 真 ) 159, 498, 633 

true-positive rate( 真 正 率 )，293 

truth maintenance system( 真 值 维持 系统 )，207 

truth value( 真 值 )，159 

truthful( 真 正 的 )，446 

try( 尝 试 )，131 

tuple( 元 组 )，115，633，635 

Turing test( 图 灵 测 试 ) 5 

Turtle( 一 种 语言 )，555 

tutoring system( 指 导 系 统 )，30 

two-step belief network( 两 步 信 和 念 网 络 )，272 

type( 类 型 )，559 


U 


UML, 558 

unary constraint( 一 元 约 W), 116 
unconditionally independent( 无 条 件 独立 )，235 
unification( 合 一 )，511 

unifier( 合 一 算 子 ) 507 


Uniform Resource Identifier (统一 资源 标识 符 )， 
555，564，568 

uninformed search strategies( 盲 目 搜 索 策略 )，80 

union( 并 )，636 

unique names assumption( 唯 一 名 字 假 设 )，535 

unit resolution( 单 元 归结 )，127 

units( 单 元 )，315 

universally quantified( 全 称 量 化 )，498 

universally quantified variable (全 称 量 化 的 变 
量 )，498 

unsatisfiable( 不 可 满足 的 )，186 

unstable( 不 稳定 的 )，319 

unsupervised learning( 无 监督 学 习 )，285，451 

URI, #3 Uniform Resource Identifier 

useful( 令 人 满意 的 ) 358 

user( 用 户 ) ，64，114，175 

utility( 效 用 )，14，376 

utility node( 效 用 节点 )，385) 


V 


V", 403 
Vv", 404 
validation set( 验 证 集 )，324 
value( 值 )，401 
value of control( 控 制 价值 ) 398 
value of information( 信 息 价 值 )，397 
vanilla meta-interpreter( 普 通 的 元 解释 器 }，582，583 
variable( 变 量 )，113 
algebraic( 代 数 的 )，113 
Boolean( 布 尔 )，113 
continuous( 连 续 ) 113 
decision( 决 策 )，382 
discrete( 离 散 )，113 
existentially quantified( 存 在 量化 ) 500 
logical GE SBM), 494 
random( 随 机 )，221 
universally quantified( 全 称 量化 )，498 
variable assignment( 变 量 指 派 )，498 
variable elimination( 变 量 消 除 )，386 
belief networks( 信 念 网 络 ) 248 
CSP，127 
decision networks (H % M4), 392 
variational inference( 变 分 推理 ) 248 
VCG mechanism(VCG 和 机制)，447 
VE, 参见 variable elimination 





verb( 动 词 ) 552 
version space( 变 型 空间 )，329 
virtual body( 虚 拟 体 )，50 


W 


walk( 游 走 )，131 

weakest precondition( 最 弱 前 提 条 件 )，358 
weakly dominated( 34 % M), 147 

weakly preferred( 35 fm iF). 373 

Web Ontology Language( Web 本 体 语言 )，564 
what( p28), 17 

why question(“ 为 什么 ?问题 )，177 

whynot question(“ 44} AAS” fal), 177 

win or learn fast (WoLF)( 赢 或 快速 学 习 ) 445 


word( 字 )，494 

world( 世 界 )，10 

worst-case error( 最 坏 情 况 误差 )，291 
wrapper( 封 装 )，65 


X 
XML, 564 

N 
yes, 166 

Z 


zero-sum game( 零 和 博弈 ) 424, 430 


453 


